Préparation des données d'entraînement du classificateur - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Préparation des données d'entraînement du classificateur

Pour une classification personnalisée, vous entraînez le modèle en mode multi-classes ou en mode multi-étiquettes. Le mode multi-classes associe une seule classe à chaque document. Le mode multi-étiquettes associe une ou plusieurs classes à chaque document. Les formats de fichier d'entrée étant différents pour chaque mode, choisissez le mode à utiliser avant de créer les données d'entraînement.

Note

La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

La classification personnalisée prend en charge les modèles que vous entraînez avec des documents en texte brut et les modèles que vous entraînez avec des documents natifs (tels que PDF, Word ou images). Pour plus d'informations sur les modèles de classificateur et les types de documents pris en charge, consultezModèles de classification des formations.

Pour préparer les données afin d'entraîner un modèle de classificateur personnalisé, procédez comme suit :

  1. Identifiez les classes que vous souhaitez que ce classificateur analyse. Décidez quel mode utiliser (multi-classes ou multi-étiquettes).

  2. Choisissez le type de modèle de classificateur, selon que le modèle est destiné à l'analyse de documents en texte brut ou de documents semi-structurés.

  3. Rassemblez des exemples de documents pour chacune des classes. Pour les exigences de formation minimales, voirQuotas généraux pour le classement des documents.

  4. Pour un modèle en texte brut, choisissez le format de fichier de formation à utiliser (fichier CSV ou fichier manifeste augmenté). Pour entraîner un modèle de document natif, vous devez toujours utiliser un fichier CSV.