Formats de fichiers d'entraînement du classificateur - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formats de fichiers d'entraînement du classificateur

Pour un modèle en texte brut, vous pouvez fournir les données d'entraînement du classificateur sous forme de CSV fichier ou de fichier manifeste augmenté que vous créez à l'aide de Ground Truth SageMaker . Le CSV fichier ou le fichier manifeste augmenté inclut le texte de chaque document de formation et ses étiquettes associées.

Pour un modèle de document natif, vous fournissez les données d'entraînement du classificateur sous forme de CSV fichier. Le CSV fichier inclut le nom de fichier de chaque document de formation, ainsi que les étiquettes associées. Vous incluez les documents de formation dans le dossier de saisie Amazon S3 correspondant à la tâche de formation.

CSVfichiers

Vous fournissez des données d'entraînement étiquetées sous forme de texte codé en UTF -8 dans un CSV fichier. N'incluez pas de ligne d'en-tête. L'ajout d'une ligne d'en-tête dans votre fichier peut provoquer des erreurs d'exécution.

Pour chaque ligne du CSV fichier, la première colonne contient une ou plusieurs étiquettes de classe. Une étiquette de classe peut être n'importe quelle chaîne UTF -8 valide. Nous vous recommandons d'utiliser des noms de classe clairs dont la signification ne se chevauche pas. Le nom peut inclure des espaces blancs et peut être composé de plusieurs mots reliés par des traits de soulignement ou des traits d'union.

Ne laissez aucun espace avant ou après les virgules séparant les valeurs d'une ligne.

Le contenu exact du CSV fichier dépend du mode de classification et du type de données d'entraînement. Pour plus de détails, consultez les sections sur Mode multi-classes etMode multi-étiquettes.

Fichier manifeste augmenté

Un fichier manifeste augmenté est un ensemble de données étiqueté que vous créez à l'aide de SageMaker Ground Truth. Ground Truth est un service d'étiquetage des données qui vous aide, ou qui aide le personnel que vous employez, à créer des ensembles de données de formation pour les modèles d'apprentissage automatique.

Pour plus d'informations sur Ground Truth et le résultat qu'il produit, consultez la section Utiliser SageMaker Ground Truth pour étiqueter les données dans le manuel Amazon SageMaker Developer Guide.

Les fichiers manifestes augmentés sont au format de JSON lignes. Dans ces fichiers, chaque ligne est un JSON objet complet qui contient un document de formation et les étiquettes associées. Le contenu exact de chaque ligne dépend du mode de classification. Pour plus de détails, consultez les sections sur Mode multi-classes etMode multi-étiquettes.

Lorsque vous fournissez vos données de formation à Amazon Comprehend, vous spécifiez un ou plusieurs noms d'attributs d'étiquette. Le nombre de noms d'attributs que vous spécifiez varie selon que votre fichier manifeste augmenté est le résultat d'une tâche d'étiquetage unique ou d'une tâche d'étiquetage en chaîne.

Si votre fichier est le résultat d'une seule tâche d'étiquetage, spécifiez le nom de l'attribut d'étiquette unique issu de la tâche Ground Truth.

Si votre fichier est le résultat d'une tâche d'étiquetage en chaîne, spécifiez le nom de l'attribut d'étiquette pour une ou plusieurs tâches de la chaîne. Chaque nom d'attribut d'étiquette fournit les annotations d'une tâche individuelle. Vous pouvez spécifier jusqu'à 5 de ces attributs pour les fichiers manifestes augmentés issus de tâches d'étiquetage en chaîne.

Pour plus d'informations sur les tâches d'étiquetage en chaîne et pour obtenir des exemples des résultats qu'elles produisent, consultez la section Chaining Labeling Jobs dans le manuel Amazon SageMaker Developer Guide.