DetectDocumentText - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

DetectDocumentText

Détecte le texte dans le document d'entrée. Amazon Textract peut détecter les lignes de texte et les mots qui constituent une ligne de texte. Le document d'entrée doit être une image au format JPEG, PNG, PDF ou TIFF.DetectDocumentTextrenvoie le texte détecté dans un tableau deBlockobjets.

Chaque page de document est associéeBlockde type PAGE. Chaque PAGEBlockobjet est le parent de LINEBlockobjets qui représentent les lignes de texte détecté sur une page. UNE LIGNEBlockobjet est un parent pour chaque mot qui constitue la ligne. Les mots sont représentés parBlockobjets de type WORD.

DetectDocumentTextest une opération synchrone. Pour analyser des documents de manière asynchrone, utilisezStartDocumentTextDetection.

Pour de plus amples informations, veuillez consulterDétection de texte de document.

Syntaxe de la demande

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

Paramètres de demande

Cette demande accepte les données suivantes au format JSON.

Document

Le document d'entrée sous forme d'octets codés en base64 ou d'un objet Amazon S3. Si vous utilisez l'interface de ligne de commande AWS pour appeler les opérations Amazon Textract, vous ne pouvez pas transmettre d'octets d'image. Le document doit être une image au format JPEG ou PNG.

Si vous utilisez un kit SDK AWS pour appeler Amazon Textract, il est possible que vous n'ayez pas besoin de coder en base64 octets d'image transmis à l'aide de l'optionBytes.

Type : objet Document

Obligatoire Oui

Syntaxe de la réponse

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

Eléments de réponse

Si l’action aboutit, le service renvoie une réponse HTTP 200.

Les données suivantes sont renvoyées au format JSON par le service.

Blocks

Tableau d'élémentsBlockobjets contenant le texte détecté dans le document.

Type : Tableau deBlockobjets

DetectDocumentTextModelVersion

Type : Chaîne

DocumentMetadata

Métadonnées concernant le document. Il contient le nombre de pages détectées dans le document.

Type : objet DocumentMetadata

Erreurs

AccessDeniedException

Vous n'êtes pas autorisé à effectuer l'action. Utilisez l'Amazon Resource Name (ARN) d'un utilisateur ou d'un rôle IAM autorisé pour effectuer l'opération.

HTTP Status Code : 400

BadDocumentException

Amazon Textract n'est pas en mesure de lire le document. Pour plus d'informations sur les limites de documents dans Amazon Textract, voirLimites strictes dans Amazon Textract.

HTTP Status Code : 400

DocumentTooLargeException

Le document ne peut pas être traité car il est trop volumineux. Taille maximale du document pour les opérations synchrone 10 Mo. La taille maximale du document pour les opérations asynchrones est de 500 Mo pour les fichiers PDF.

HTTP Status Code : 400

InternalServerError

Amazon Textract a rencontré un problème de service. Renouvelez votre appel.

HTTP Status Code : 500

InvalidParameterException

Un paramètre d'entrée a enfreint une contrainte. Par exemple, dans les opérations synchrone, unInvalidParameterExceptionexception se produit lorsque aucune des optionsS3ObjectouBytesles valeurs sont fournies dans leDocumentparamètre de demande. Validez votre paramètre avant d'appeler à nouveau l'opération d'API.

HTTP Status Code : 400

InvalidS3ObjectException

Amazon Textract n'est pas en mesure d'accéder à l'objet S3 spécifié dans la demande. Pour plus d'informations,Configuration de l'accès à Amazon S3Pour plus d'informations sur le dépannage, consultezRésolutions des problèmes liés à Amazon S3

HTTP Status Code : 400

ProvisionedThroughputExceededException

Le nombre de demandes dépasse votre limite de débit. Si vous avez besoin d'augmenter cette limite, contactez Amazon Textract.

HTTP Status Code : 400

ThrottlingException

Amazon Textract est temporairement dans l'impossibilité de traiter la demande. Renouvelez votre appel.

HTTP Status Code : 500

UnsupportedDocumentException

Le format du document d'entrée n'est pas pris en charge. Les documents utilisés pour les opérations peuvent être au format PNG, JPEG, PDF ou TIFF.

HTTP Status Code : 400

Voir aussi

Pour plus d’informations sur l’utilisation de cette API dans l’un des kits SDK AWS spécifiques au langage, consultez les ressources suivantes :