Documents en texte brut Documents semi-structurés Fichiers image et fichiers PDF numérisés Sortie Amazon Textract Tailles de document maximales pour une analyse en temps réel Erreurs dans les documents semi-structurés

Entrées pour une analyse personnalisée en temps réel

L'analyse en temps réel à l'aide de modèles personnalisés prend un seul document en entrée. Les rubriques suivantes décrivent les types de documents d'entrée que vous pouvez utiliser.

Rubriques

Documents en texte brut
Documents semi-structurés
Fichiers image et fichiers PDF numérisés
Sortie Amazon Textract
Tailles de document maximales pour une analyse en temps réel
Erreurs dans les documents semi-structurés

Documents en texte brut

Fournissez le document d'entrée sous forme de texte au format UTF-8.

Documents semi-structurés

Les documents semi-structurés incluent les documents PDF natifs et les documents Word.

Par défaut, l'analyse personnalisée en temps réel utilise l'analyseur Amazon Comprehend pour extraire le texte des fichiers Word et des fichiers PDF numériques. Pour les fichiers PDF, vous pouvez annuler cette valeur par défaut et utiliser Amazon Textract pour extraire le texte. Consultez Configuration des options d'extraction de texte.

Fichiers image et fichiers PDF numérisés

Les types d'image pris en charge sont les suivants : JPEG, PNG et TIFF.

Par défaut, la reconnaissance d'entité personnalisée utilise l'opération d'DetectDocumentTextAPI Amazon Textract pour extraire le texte des fichiers image et des fichiers PDF numérisés. Vous pouvez remplacer cette valeur par défaut pour utiliser l'opération AnalyzeDocument API à la place. Consultez Configuration des options d'extraction de texte.

Sortie Amazon Textract

Vous pouvez fournir la sortie JSON de l'DetectDocumentTextAPI ou AnalyzeDocument de l'API Amazon Textract en tant qu'entrée pour les opérations d'API en temps réel pour une classification personnalisée et une reconnaissance d'entité personnalisée. Amazon Comprehend prend en charge ce type d'entrée pour les opérations d'API en temps réel, mais pas pour la console.

Tailles de document maximales pour une analyse en temps réel

Pour tous les types de documents d'entrée, le maximum du fichier d'entrée est d'une page, avec un maximum de 10 000 caractères.

Le tableau suivant indique les tailles de fichier maximales pour les documents d'entrée.

Type de fichier	Taille maximale (API)	Taille maximale (console)
Documents texte UTF-8	10 Ko	10 Ko
Documents au format PDF	10 Mo	5 Mo
Documents Word	10 Mo	1 Mo
Fichiers image	10 Mo	5 Mo
Textract les fichiers de sortie	1 Mo	N/A

Erreurs dans les documents semi-structurés

L'opération ClassifyDocumentou DetectEntitiesAPI peut rencontrer des erreurs au niveau du document ou au niveau de la page lors de l'extraction du texte d'un document semi-structuré ou d'un fichier image.

Erreurs au niveau de la page

Si l'opération ClassifyDocumentou DetectEntitiesAPI rencontre des erreurs lors du traitement d'une page dans le document d'entrée, la réponse de l'API inclut une entrée dans la liste des erreurs pour chaque erreur.

L'entrée ErrorCode de la liste d'erreurs contient l'une des valeurs suivantes :

TEXTRACT_BAD_PAGE — Amazon Textract ne peut pas lire la page. Pour plus d'informations sur les limites de pages dans Amazon Textract, consultez la section Quotas de pages dans Amazon Textract.
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEDED — Le nombre de demandes a dépassé votre limite de débit. Pour plus d'informations sur les quotas de débit dans Amazon Textract, consultez la section Quotas par défaut dans Amazon Textract.
PAGE_CHARACTERS_EXCEDED — Trop de caractères de texte sur la page (10 000 caractères maximum).
PAGE_SIZE_EXCEDED — La taille de page maximale est de 10 Mo.
INTERNAL_SERVER_ERROR — La demande a rencontré un problème de service. Réessayez la demande d'API.

Erreurs au niveau du document

Si l'opération ClassifyDocumentou DetectEntitiesAPI détecte une erreur au niveau du document dans votre document d'entrée, l'API renvoie une réponse d'InvalidRequestExceptionerreur.

Dans la réponse d'erreur, le Reason champ contient la valeurINVALID_DOCUMENT.

Le Detail champ contient l'une des valeurs suivantes :

DOCUMENT_SIZE_EXCEDED — La taille du document est trop grande. Vérifiez la taille de votre fichier et soumettez à nouveau la demande.
UNSUPPORTED_DOC_TYPE — Le type de document n'est pas pris en charge. Vérifiez le type de fichier et soumettez à nouveau la demande.
PAGE_LIMIT_EXCEDED — Le document contient trop de pages. Vérifiez le nombre de pages de votre fichier et soumettez à nouveau la demande.
TEXTRACT_ACCESS_DENIED_EXCEPTION — Accès refusé à Amazon Textract. Vérifiez que votre compte est autorisé à utiliser les opérations Amazon Textract DetectDocumentTextet AnalyzeDocumentAPI, puis soumettez à nouveau la demande.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Traitement des documents

Entrées pour l'analyse asynchrone