Préparation des données d'entraînement du classificateur

Pour une classification personnalisée, vous entraînez le modèle en mode multi-classes ou en mode multi-étiquettes. Le mode multi-classes associe une seule classe à chaque document. Le mode multi-étiquettes associe une ou plusieurs classes à chaque document. Les formats de fichier d'entrée étant différents pour chaque mode, choisissez le mode à utiliser avant de créer les données d'entraînement.

Note

La console Amazon Comprehend fait référence au mode multi-classes en tant que mode à étiquette unique.

La classification personnalisée prend en charge les modèles que vous entraînez avec des documents en texte brut et les modèles que vous entraînez avec des documents natifs (tels que PDF, Word ou images). Pour plus d'informations sur les modèles de classificateur et les types de documents pris en charge, consultezModèles de classification des formations.

Pour préparer les données afin d'entraîner un modèle de classificateur personnalisé, procédez comme suit :

Identifiez les classes que vous souhaitez que ce classificateur analyse. Décidez quel mode utiliser (multi-classes ou multi-étiquettes).
Choisissez le type de modèle de classificateur, selon que le modèle est destiné à l'analyse de documents en texte brut ou de documents semi-structurés.
Rassemblez des exemples de documents pour chacune des classes. Pour les exigences de formation minimales, voirQuotas généraux pour le classement des documents.
Pour un modèle en texte brut, choisissez le format de fichier de formation à utiliser (fichier CSV ou fichier manifeste augmenté). Pour entraîner un modèle de document natif, vous devez toujours utiliser un fichier CSV.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Classification personnalisée

Formats de fichiers de formation