Annotations - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Annotations

Les annotations étiquettent les entités dans leur contexte en associant vos types d'entités personnalisés aux emplacements où ils apparaissent dans vos documents de formation.

En soumettant des annotations avec vos documents, vous pouvez augmenter la précision du modèle. Avec les annotations, vous ne vous contentez pas de fournir l'emplacement de l'entité que vous recherchez, mais vous fournissez également un contexte plus précis à l'entité personnalisée que vous recherchez.

Par exemple, si vous recherchez le nom John Johnson, avec le type d'entité JUDGE, le fait de fournir votre annotation peut aider le modèle à apprendre que la personne que vous recherchez est un juge. S'il est capable d'utiliser le contexte, Amazon Comprehend ne trouvera pas de personnes nommées John Johnson qui sont des avocats ou des témoins. Sans fournir d'annotations, Amazon Comprehend créera sa propre version d'une annotation, mais ne sera pas aussi efficace pour inclure uniquement les juges. Fournir vos propres annotations peut vous aider à obtenir de meilleurs résultats et à générer des modèles capables de mieux tirer parti du contexte lors de l'extraction d'entités personnalisées.

Nombre minimum d'annotations

Le nombre minimum de documents d'entrée et d'annotations requis pour entraîner un modèle dépend du type d'annotations.

Annotations PDF

Pour créer un modèle permettant d'analyser des fichiers image, des PDF ou des documents Word, entraînez votre outil de reconnaissance à l'aide des annotations PDF. Pour les annotations PDF, fournissez au moins 250 documents d'entrée et au moins 100 annotations par entité.

Si vous fournissez un jeu de données de test, les données de test doivent inclure au moins une annotation pour chacun des types d'entités spécifiés dans la demande de création.

Annotations en texte brut

Pour créer un modèle d'analyse de documents texte, vous pouvez entraîner votre outil de reconnaissance à l'aide d'annotations en texte brut.

Pour les annotations en texte brut, fournissez au moins trois documents d'entrée annotés et au moins 25 annotations par entité. Si vous fournissez moins de 50 annotations au total, Amazon Comprehend réserve plus de 10 % des documents d'entrée pour tester le modèle (sauf si vous avez fourni un ensemble de données de test dans la demande de formation). N'oubliez pas que la taille minimale du corpus de documents est de 5 Ko.

Si votre entrée ne contient que quelques documents de formation, il se peut que vous rencontriez une erreur indiquant que les données d'entrée de formation contiennent trop peu de documents mentionnant l'une des entités. Soumettez à nouveau le travail avec des documents supplémentaires mentionnant l'entité.

Si vous fournissez un jeu de données de test, les données de test doivent inclure au moins une annotation pour chacun des types d'entités spécifiés dans la demande de création.

Pour voir comment comparer un modèle à un petit ensemble de données, consultez Amazon Comprehend annonce des limites d'annotations plus basses pour la reconnaissance d'entités personnalisée sur le AWS site de blog.

Bonnes pratiques en matière d'annotation

Plusieurs éléments doivent être pris en compte pour obtenir les meilleurs résultats lors de l'utilisation d'annotations, notamment :

  • Annotez vos données avec soin et vérifiez que vous annotez chaque mention de l'entité. Des annotations imprécises peuvent entraîner de mauvais résultats.

  • Les données d'entrée ne doivent pas contenir de doublons, comme le double d'un PDF que vous allez annoter. La présence d'un échantillon dupliqué peut entraîner la contamination du set de test et affecter négativement le processus de formation, les paramètres du modèle et le comportement du modèle.

  • Assurez-vous que tous vos documents sont annotés et que les documents sans annotations sont dus à l'absence d'entités légitimes et non à une négligence. Par exemple, si vous avez un document qui dit « J Doe est ingénieur depuis 14 ans », vous devez également fournir une annotation pour « J Doe » et « John Doe ». Si vous ne le faites pas, le modèle risque de ne pas reconnaître « J Doe » comme ENGINEER. Cela doit être cohérent au sein d'un même document et d'un document à l'autre.

  • En général, un plus grand nombre d'annotations permet d'obtenir de meilleurs résultats.

  • Vous pouvez entraîner un modèle avec un minimum de documents et d'annotations, mais l'ajout de données améliore généralement le modèle. Nous recommandons d'augmenter le volume de données annotées de 10 % pour augmenter la précision du modèle. Vous pouvez exécuter l'inférence sur un jeu de données de test qui reste inchangé et peut être testé par différentes versions de modèle. Vous pouvez ensuite comparer les mesures pour les versions successives du modèle.

  • Fournissez des documents qui ressemblent le plus possible à des cas d'utilisation réels. Les données synthétisées avec des modèles répétitifs doivent être évitées. Les données d'entrée doivent être aussi diverses que possible pour éviter un ajustement excessif et aider le modèle sous-jacent à mieux généraliser sur des exemples réels.

  • Il est important que les documents soient diversifiés en termes de nombre de mots. Par exemple, si tous les documents contenus dans les données d'entraînement sont courts, le modèle obtenu peut avoir des difficultés à prévoir les entités dans des documents plus longs.

  • Essayez de distribuer les données pour l'entraînement de la même manière que celle que vous comptez utiliser lorsque vous détectez réellement vos entités personnalisées (temps d'inférence). Par exemple, au moment de l'inférence, si vous prévoyez de nous envoyer des documents ne contenant aucune entité, cela devrait également faire partie de votre ensemble de documents de formation.

Pour des suggestions supplémentaires, voir Améliorer les performances du système de reconnaissance d'entités personnalisé.