Modèles en texte brut Modèles de documents natifs

Mode multi-classes

En mode multiclasse, la classification attribue une classe à chaque document. Les cours individuels s'excluent mutuellement. Par exemple, vous pouvez classer un film dans la catégorie comédie ou science-fiction, mais pas dans les deux catégories.

Note

La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

Modèles en texte brut

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de fichier CSV ou de fichier manifeste augmenté à partir d' SageMaker AI Ground Truth.

Fichier CSV

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultezfichiers CSV.

Fournissez les données d'entraînement sous forme de fichier CSV à deux colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient un exemple de document texte pour cette classe. Chaque ligne doit se terminer par \ n ou \ r\ncaractères.

L'exemple suivant montre un fichier CSV contenant trois documents.


CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam :


SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

Fichier manifeste augmenté

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultezFichier manifeste augmenté.

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet JSON complet qui contient un document de formation, un nom de classe unique et d'autres métadonnées provenant de Ground Truth. L'exemple suivant est un fichier manifeste augmenté destiné à entraîner un classificateur personnalisé à reconnaître les spams :


{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

L'exemple suivant montre un objet JSON issu du fichier manifeste augmenté, formaté dans un souci de lisibilité :


{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}

Dans cet exemple, l'sourceattribut fournit le texte du document de formation, et l'MultiClassJobattribut attribue l'index d'une classe à partir d'une liste de classification. L'job-nameattribut est le nom que vous avez défini pour la tâche d'étiquetage dans Ground Truth.

Lorsque vous démarrez la tâche de formation au classificateur dans Amazon Comprehend, vous spécifiez le même nom de tâche d'étiquetage.

Modèles de documents natifs

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels que PDF, DOCX et images). Vous fournissez les données d'entraînement sous forme de fichier CSV.

Fichier CSV

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultezfichiers CSV.

Fournissez les données d'entraînement sous forme de fichier CSV à trois colonnes. Pour chaque ligne, la première colonne contient la valeur de l'étiquette de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour cette classe. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

L'exemple suivant montre un fichier CSV qui fait référence à trois documents d'entrée.


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter si un e-mail est du spam. La page 2 du fichier PDF contient l'exemple de spam.


SPAM,email-content-3.pdf,2

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Formats de fichiers de formation

Mode multi-étiquettes