Modèles en texte brut Modèles de documents natifs

Mode multi-étiquettes

En mode multi-étiquettes, les classes individuelles représentent différentes catégories qui ne s'excluent pas mutuellement. La classification à étiquettes multiples attribue une ou plusieurs classes à chaque document. Par exemple, vous pouvez classer un film en tant que documentaire et un autre en tant que film de science-fiction, d'action et de comédie.

Pour la formation, le mode multi-étiquettes prend en charge jusqu'à 1 million d'exemples contenant jusqu'à 100 classes uniques.

Modèles en texte brut

Pour entraîner un modèle en texte brut, vous pouvez fournir des données d'entraînement étiquetées sous forme de fichier CSV ou de fichier manifeste augmenté à partir d' SageMaker AI Ground Truth.

Fichier CSV

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultezfichiers CSV.

Fournissez les données d'entraînement sous forme de fichier CSV à deux colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe, et la seconde contient un exemple de document texte pour ces classes. Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.


CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films :


COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

Le séparateur par défaut entre les noms de classes est un tube (|). Vous pouvez toutefois utiliser un caractère différent comme séparateur. Le délimiteur doit être distinct de tous les caractères des noms de classe. Par exemple, si vos classes sont CLASS_1, CLASS_2 et CLASS_3, le trait de soulignement (_) fait partie du nom de la classe. N'utilisez donc pas de trait de soulignement comme séparateur pour séparer les noms de classe.

Fichier manifeste augmenté

Pour obtenir des informations générales sur l'utilisation de fichiers manifestes augmentés pour l'entraînement des classificateurs, consultezFichier manifeste augmenté.

Pour les documents en texte brut, chaque ligne du fichier manifeste augmenté est un objet JSON complet. Il contient un document de formation, des noms de classes et d'autres métadonnées de Ground Truth. L'exemple suivant est un fichier manifeste augmenté permettant d'entraîner un classificateur personnalisé à détecter les genres dans les résumés de films :


{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

L'exemple suivant montre un objet JSON issu du fichier manifeste augmenté, formaté dans un souci de lisibilité :


{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }

Dans cet exemple, l'sourceattribut fournit le texte du document de formation et MultiLabelJob attribue les index de plusieurs classes à partir d'une liste de classification. Le nom de tâche indiqué dans les MultiLabelJob métadonnées est le nom que vous avez défini pour le travail d'étiquetage dans Ground Truth.

Modèles de documents natifs

Un modèle de document natif est un modèle que vous entraînez avec des documents natifs (tels que des fichiers PDF, DOCX et images). Vous fournissez des données d'entraînement étiquetées sous forme de fichier CSV.

Fichier CSV

Pour obtenir des informations générales sur l'utilisation de fichiers CSV pour les classificateurs d'entraînement, consultezfichiers CSV.

Fournissez les données d'entraînement sous forme de fichier CSV à trois colonnes. Pour chaque ligne, la première colonne contient les valeurs des étiquettes de classe. La deuxième colonne contient le nom de fichier d'un exemple de document pour ces classes. La troisième colonne contient le numéro de page. Le numéro de page est facultatif si le document d'exemple est une image.

Pour saisir plusieurs classes dans la première colonne, utilisez un séparateur (tel qu'un |) entre chaque classe.


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2

L'exemple suivant montre une ligne d'un fichier CSV qui entraîne un classificateur personnalisé pour détecter les genres dans les résumés de films. La page 2 du fichier PDF contient un exemple de comedy/teen film.


COMEDY|TEEN,movie-summary-1.pdf,2

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Mode multi-classes

Modèles de classification des formations