Mode multi-étiquettes - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mode multi-étiquettes

En mode multi-étiquettes, les classes individuelles représentent différentes catégories qui ne s'excluent pas mutuellement. La classification à étiquettes multiples attribue une ou plusieurs classes à chaque document. Par exemple, vous pouvez classer un film en tant que documentaire et un autre en tant que film de science-fiction, d'action et de comédie.

Pour la formation, le mode multi-étiquettes prend en charge jusqu'à 1 million d'exemples contenant jusqu'à 100 classes uniques.

Modèles en texte brut

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de CSV fichier ou de fichier manifeste augmenté à partir de SageMaker Ground Truth.

CSV file

Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.

Fournissez les données d'entraînement sous forme de CSV fichier à deux colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe, et la seconde contient un exemple de document texte pour ces classes. Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films :

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Le séparateur par défaut entre les noms de classes est un tube (|). Vous pouvez toutefois utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères des noms de classe. Par exemple, si vos classes sont CLASS _1, CLASS _2 et CLASS _3, le trait de soulignement (_) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme séparateur pour séparer les noms de classe.

Fichier manifeste augmenté

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultezFichier manifeste augmenté.

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet completJSON. Il contient un document de formation, des noms de classes et d'autres métadonnées de Ground Truth. L'exemple suivant est un fichier manifeste augmenté permettant d'entraîner un classificateur personnalisé à détecter les genres dans les résumés de films :

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

L'exemple suivant montre un JSON objet du fichier manifeste augmenté, formaté dans un souci de lisibilité :

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

Dans cet exemple, l'sourceattribut fournit le texte du document de formation et MultiLabelJob attribue les index de plusieurs classes à partir d'une liste de classification. Le nom de tâche indiqué dans les MultiLabelJob métadonnées est le nom que vous avez défini pour le travail d'étiquetage dans Ground Truth.

Modèles de documents natifs

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels quePDF,DOCX, et des fichiers image). Vous fournissez des données d'entraînement étiquetées sous forme de CSV fichier.

CSV file

Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.

Fournissez les données d'entraînement sous forme de CSV fichier à trois colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour ces classes. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films. La page 2 du PDF fichier contient l'exemple d'une comédie ou d'un film pour adolescents.

COMEDY|TEEN,movie-summary-1.pdf,2

Le séparateur par défaut entre les noms de classes est un tube (|). Vous pouvez toutefois utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères des noms de classe. Par exemple, si vos classes sont CLASS _1, CLASS _2 et CLASS _3, le trait de soulignement (_) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme séparateur pour séparer les noms de classe.