Formats de fichiers pour l'analyse asynchrone - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formats de fichiers pour l'analyse asynchrone

Lorsque vous exécutez une analyse asynchrone avec votre modèle, vous avez le choix entre plusieurs formats pour les documents d'entrée : One document per line ouone document per file. Le format que vous utilisez dépend du type de document que vous souhaitez analyser, comme décrit dans le tableau suivant.

Description Format

L'entrée contient plusieurs fichiers. Chaque fichier contient un document d'entrée. Ce format est idéal pour les collections de documents volumineux, tels que des articles de journaux ou des articles scientifiques.

Utilisez également ce format pour les documents semi-structurés (images ou fichiers Docx) à l'aide d'un classificateur de documents natif. PDF

Un document par fichier

L'entrée est un ou plusieurs fichiers. Chaque ligne du fichier est un document d'entrée distinct. Ce format est idéal pour les documents courts, tels que les SMS ou les publications sur les réseaux sociaux.

Un document par ligne

Un document par fichier

Avec le one document per file format, chaque fichier représente un document d'entrée.

Un document par ligne

Avec le One document per line format, chaque document est placé sur une ligne séparée et aucun en-tête n'est utilisé. L'étiquette n'est pas incluse sur chaque ligne (puisque vous ne connaissez pas encore l'étiquette du document). Chaque ligne du fichier (la fin du document individuel) doit se terminer par une ligne d'alimentation (LF,\n), un retour en chariot (CR, \ r), ou les deux (CRLF, \ r\n). N'utilisez pas le séparateur de ligne UTF -8 (u+2028) pour terminer une ligne.

L'exemple suivant montre le format du fichier d'entrée.

Text of document 1 \n Text of document 2 \n Text of document 3 \n Text of document 4 \n

Quel que soit le format, utilisez le codage UTF -8 pour les fichiers texte. Après avoir préparé les fichiers, placez-les dans le compartiment S3 que vous utilisez pour les données d'entrée.

Lorsque vous démarrez une tâche de classification, vous spécifiez cet emplacement Amazon S3 pour vos données d'entrée. URIIl doit se trouver dans la même région que le API point de terminaison que vous appelez. Il URI peut pointer vers un seul fichier (comme lors de l'utilisation de la méthode « un document par ligne »), ou il peut être le préfixe d'un ensemble de fichiers de données.

Par exemple, si vous utilisez le URIS3://bucketName/prefix, si le préfixe est un fichier unique, Amazon Comprehend utilise ce fichier en entrée. Si plusieurs fichiers commencent par le préfixe, Amazon Comprehend les utilise tous comme entrée.

Accordez à Amazon Comprehend l'accès au compartiment S3 qui contient votre collection de documents et vos fichiers de sortie. Pour de plus amples informations, veuillez consulter Autorisations basées sur les rôles requises pour les opérations asynchrones.