Modèles de classification des formations - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Modèles de classification des formations

Pour entraîner un modèle en vue d'une classification personnalisée, vous définissez les catégories et vous fournissez des exemples de documents pour entraîner le modèle personnalisé. Vous entraînez le modèle en mode multiclasse ou multilabel. Le mode multi-classes associe une seule classe à chaque document. Le mode multi-étiquettes associe une ou plusieurs classes à chaque document.

La classification personnalisée prend en charge deux types de modèles de classificateur : les modèles en texte brut et les modèles de documents natifs. Un modèle en texte brut classe les documents en fonction de leur contenu textuel. Un modèle de document natif classe également les documents en fonction du contenu du texte. Un modèle de document natif peut également utiliser des signaux supplémentaires, tels que ceux issus de la mise en page du document. Vous entraînez un modèle de document natif avec des documents natifs pour que le modèle apprenne les informations de mise en page.

Les modèles en texte brut présentent les caractéristiques suivantes :

  • Vous entraînez le modèle à l'aide de documents texte codés en UTF-8.

  • Vous pouvez entraîner le modèle à l'aide de documents rédigés dans l'une des langues suivantes : anglais, espagnol, allemand, italien, français ou portugais.

  • Les documents de formation relatifs à un classificateur donné doivent tous utiliser le même langage.

  • Les documents de formation sont en texte brut, il n'y a donc pas de frais supplémentaires pour l'extraction de texte.

Les modèles de documents natifs présentent les caractéristiques suivantes :

  • Vous entraînez le modèle à l'aide de documents semi-structurés, notamment les types de documents suivants :

    • Documents PDF numérisés et numérisés.

    • Documents Word (DOCX).

    • Images : fichiers JPG, fichiers PNG et fichiers TIFF d'une seule page.

    • Fichiers JSON de sortie de l'API Textract.

  • Vous entraînez le modèle à l'aide de documents en anglais.

  • Si vos documents de formation incluent des fichiers numérisés, des frais supplémentaires vous seront facturés pour l'extraction de texte. Consultez la page de tarification d'Amazon Comprehend pour plus de détails.

Vous pouvez classer tous les types de documents pris en charge à l'aide de l'un ou l'autre type de modèle. Toutefois, pour des résultats plus précis, nous recommandons d'utiliser un modèle en texte brut pour classer les documents en texte brut et un modèle de document natif pour classer les documents semi-structurés.