Mode multi-classes - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Mode multi-classes

En mode multiclasse, la classification attribue une classe à chaque document. Les cours individuels s'excluent mutuellement. Par exemple, vous pouvez classer un film dans la catégorie comédie ou science-fiction, mais pas dans les deux catégories.

Note

La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

Modèles en texte brut

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de CSV fichier ou de fichier manifeste augmenté à partir de SageMaker Ground Truth.

CSVfichier

Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.

Fournissez les données d'entraînement sous forme de CSV fichier à deux colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient un exemple de document texte pour cette classe. Chaque ligne doit se terminer par \ n ou \ r\ncaractères.

L'exemple suivant montre un CSV fichier contenant trois documents.

CLASS,Text of document 1 CLASS,Text of document 2 CLASS,Text of document 3

L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam :

SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

Fichier manifeste augmenté

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultezFichier manifeste augmenté.

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un JSON objet complet qui contient un document de formation, un nom de classe unique et d'autres métadonnées provenant de Ground Truth. L'exemple suivant est un fichier manifeste augmenté destiné à entraîner un classificateur personnalisé à reconnaître les spams :

{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

L'exemple suivant montre un JSON objet du fichier manifeste augmenté, formaté dans un souci de lisibilité :

{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }

Dans cet exemple, l'sourceattribut fournit le texte du document de formation, et l'MultiClassJobattribut attribue l'index d'une classe à partir d'une liste de classification. L'job-nameattribut est le nom que vous avez défini pour la tâche d'étiquetage dans Ground Truth.

Lorsque vous démarrez la tâche de formation au classificateur dans Amazon Comprehend, vous spécifiez le même nom de tâche d'étiquetage.

Modèles de documents natifs

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels quePDF,DOCX, et des images). Vous fournissez les données d'entraînement sous forme de CSV fichier.

CSVfichier

Pour obtenir des informations générales sur l'utilisation de CSV fichiers pour l'entraînement des classificateurs, consultezCSVfichiers.

Fournissez les données d'entraînement sous forme de CSV fichier à trois colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour cette classe. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

L'exemple suivant montre un CSV fichier qui fait référence à trois documents d'entrée.

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS,input-doc-3.png

L'exemple suivant montre une ligne d'un CSV fichier qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam. La page 2 du PDF fichier contient l'exemple de spam.

SPAM,email-content-3.pdf,2