Formats de fichiers pour l'analyse asynchrone

Lorsque vous exécutez une analyse asynchrone avec votre modèle, vous avez le choix entre plusieurs formats pour les documents d'entrée : One document per line ouone document per file. Le format que vous utilisez dépend du type de document que vous souhaitez analyser, comme décrit dans le tableau suivant.

Description	Format
L'entrée contient plusieurs fichiers. Chaque fichier contient un document d'entrée. Ce format est idéal pour les collections de documents volumineux, tels que des articles de journaux ou des articles scientifiques. Utilisez également ce format pour les documents semi-structurés (fichiers image, PDF ou Docx) à l'aide d'un classificateur de documents natif.	Un document par fichier
L'entrée est un ou plusieurs fichiers. Chaque ligne du fichier est un document d'entrée distinct. Ce format est idéal pour les documents courts, tels que les SMS ou les publications sur les réseaux sociaux.	Un document par ligne

Description

Format

L'entrée contient plusieurs fichiers. Chaque fichier contient un document d'entrée. Ce format est idéal pour les collections de documents volumineux, tels que des articles de journaux ou des articles scientifiques.

Utilisez également ce format pour les documents semi-structurés (fichiers image, PDF ou Docx) à l'aide d'un classificateur de documents natif.

Un document par fichier

L'entrée est un ou plusieurs fichiers. Chaque ligne du fichier est un document d'entrée distinct. Ce format est idéal pour les documents courts, tels que les SMS ou les publications sur les réseaux sociaux.

Un document par ligne

Un document par fichier

Avec le one document per file format, chaque fichier représente un document d'entrée.

Un document par ligne

Avec le One document per line format, chaque document est placé sur une ligne séparée et aucun en-tête n'est utilisé. L'étiquette n'est pas incluse sur chaque ligne (puisque vous ne connaissez pas encore l'étiquette du document). Chaque ligne du fichier (la fin du document individuel) doit se terminer par un flux de ligne (LF,\n), un retour en chariot (CR, \ r), ou les deux (CRLF, \ r\n). N'utilisez pas le séparateur de ligne UTF-8 (u+2028) pour terminer une ligne.

L'exemple suivant montre le format du fichier d'entrée.


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

Quel que soit le format, utilisez le codage UTF-8 pour les fichiers texte. Après avoir préparé les fichiers, placez-les dans le compartiment S3 que vous utilisez pour les données d'entrée.

Lorsque vous démarrez une tâche de classification, vous spécifiez cet emplacement Amazon S3 pour vos données d'entrée. L'URI doit se trouver dans la même région que le point de terminaison de l'API que vous appelez. L'URI peut pointer vers un seul fichier (comme lors de l'utilisation de la méthode « un document par ligne »), ou il peut être le préfixe d'un ensemble de fichiers de données.

Par exemple, si vous utilisez l'URIS3://bucketName/prefix, si le préfixe est un fichier unique, Amazon Comprehend utilise ce fichier en entrée. Si plusieurs fichiers commencent par le préfixe, Amazon Comprehend les utilise tous comme entrée.

Accordez à Amazon Comprehend l'accès au compartiment S3 qui contient votre collection de documents et vos fichiers de sortie. Pour de plus amples informations, veuillez consulter Autorisations basées sur les rôles requises pour les opérations asynchrones.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Exécution de tâches d'analyse asynchrones

Tâches d'analyse (console)