Fichiers d'annotation PDF - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Fichiers d'annotation PDF

Pour les annotations PDF, vous utilisez SageMaker Ground Truth pour créer un ensemble de données étiqueté dans un fichier manifeste augmenté. Ground Truth est un service d'étiquetage des données qui vous aide (ou aide le personnel que vous employez) à créer des ensembles de données de formation pour les modèles d'apprentissage automatique. Amazon Comprehend accepte les fichiers de manifeste augmentés comme données d'entraînement pour les modèles personnalisés. Vous pouvez fournir ces fichiers lorsque vous créez un outil de reconnaissance d'entités personnalisé à l'aide de la console Amazon Comprehend ou de CreateEntityRecognizerl'action API.

Vous pouvez utiliser le type de tâche intégré à Ground Truth, nommé Entity Recognition, pour créer une tâche d'étiquetage afin que les travailleurs identifient les entités dans le texte. Pour en savoir plus, consultez la section Named Entity Recognition dans le manuel Amazon SageMaker Developer Guide. Pour en savoir plus sur Amazon SageMaker Ground Truth, consultez Utiliser Amazon SageMaker Ground Truth pour étiqueter les données.

Note

Ground Truth vous permet de définir des libellés superposés (texte que vous associez à plusieurs labels). Toutefois, la reconnaissance des entités Amazon Comprehend ne prend pas en charge le chevauchement des étiquettes.

Les fichiers manifestes augmentés sont au format de lignes JSON. Dans ces fichiers, chaque ligne est un objet JSON complet qui contient un document de formation et ses étiquettes associées. L'exemple suivant est un fichier manifeste augmenté qui entraîne un outil de reconnaissance d'entités à détecter les professions des personnes mentionnées dans le texte :

{"source":"Diego Ramirez is an engineer in the high tech industry.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":13,"startOffset":0,"label":"ENGINEER"}],"labels":[{"label":"ENGINEER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.92}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.175903","human-annotated":"yes"}} {"source":"J Doe is a judge on the Washington Supreme Court.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":5,"startOffset":0,"label":"JUDGE"}],"labels":[{"label":"JUDGE"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.72}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174910","human-annotated":"yes"}} {"source":"Our latest new employee, Mateo Jackson, has been a manager in the industry for 4 years.","NamedEntityRecognitionDemo":{"annotations":{"entities":[{"endOffset":38,"startOffset":26,"label":"MANAGER"}],"labels":[{"label":"MANAGER"}]}},"NamedEntityRecognitionDemo-metadata":{"entities":[{"confidence":0.91}],"job-name":"labeling-job/namedentityrecognitiondemo","type":"groundtruth/text-span","creation-date":"2020-05-14T21:45:27.174035","human-annotated":"yes"}}

Chaque ligne de ce fichier de lignes JSON est un objet JSON complet, dont les attributs incluent le texte du document, les annotations et les autres métadonnées de Ground Truth. L'exemple suivant est un seul objet JSON dans le fichier manifeste augmenté, mais il est formaté pour en faciliter la lisibilité :

{ "source": "Diego Ramirez is an engineer in the high tech industry.", "NamedEntityRecognitionDemo": { "annotations": { "entities": [ { "endOffset": 13, "startOffset": 0, "label": "ENGINEER" } ], "labels": [ { "label": "ENGINEER" } ] } }, "NamedEntityRecognitionDemo-metadata": { "entities": [ { "confidence": 0.92 } ], "job-name": "labeling-job/namedentityrecognitiondemo", "type": "groundtruth/text-span", "creation-date": "2020-05-14T21:45:27.175903", "human-annotated": "yes" } }

Dans cet exemple, l'sourceattribut fournit le texte du document de formation et l'NamedEntityRecognitionDemoattribut fournit les annotations pour les entités du texte. Le nom de l'NamedEntityRecognitionDemoattribut est arbitraire, et vous indiquez le nom de votre choix lorsque vous définissez la tâche d'étiquetage dans Ground Truth.

Dans cet exemple, l'NamedEntityRecognitionDemoattribut est le nom de l'attribut label, qui fournit les labels qu'un collaborateur de Ground Truth attribue aux données de formation. Lorsque vous fournissez vos données de formation à Amazon Comprehend, vous devez spécifier un ou plusieurs noms d'attributs d'étiquette. Le nombre de noms d'attributs que vous spécifiez varie selon que votre fichier manifeste augmenté est le résultat d'une tâche d'étiquetage unique ou d'une tâche d'étiquetage en chaîne.

Si votre fichier est le résultat d'une seule tâche d'étiquetage, spécifiez le nom d'attribut d'étiquette unique utilisé lors de la création de la tâche dans Ground Truth.

Si votre fichier est le résultat d'une tâche d'étiquetage en chaîne, spécifiez le nom de l'attribut d'étiquette pour une ou plusieurs tâches de la chaîne. Chaque nom d'attribut d'étiquette fournit les annotations d'une tâche individuelle. Vous pouvez spécifier jusqu'à 5 de ces attributs pour les fichiers manifestes augmentés produits par des tâches d'étiquetage en chaîne.

Dans un fichier manifeste augmenté, le nom de l'attribut d'étiquette suit généralement la source clé. Si le fichier est le résultat d'une tâche chaînée, les noms d'attributs d'étiquette seront multiples. Lorsque vous fournissez vos données d'entraînement à Amazon Comprehend, fournissez uniquement les attributs contenant des annotations pertinentes pour votre modèle. Ne spécifiez pas les attributs qui se terminent par « -metadata ».

Pour plus d'informations sur les tâches d'étiquetage en chaîne et pour obtenir des exemples des résultats qu'elles produisent, consultez la section Chaining Labeling Jobs dans le manuel Amazon SageMaker Developer Guide.