Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
DetectDocumentText
Détecte le texte dans le document d'entrée. Amazon Textract peut détecter les lignes de texte et les mots qui constituent une ligne de texte. Le document d'entrée doit être une image au format JPEG, PNG, PDF ou TIFF.DetectDocumentText
renvoie le texte détecté dans un tableau deBlockobjets.
Chaque page de document est associéeBlock
de type PAGE. Chaque PAGEBlock
objet est le parent de LINEBlock
objets qui représentent les lignes de texte détecté sur une page. UNE LIGNEBlock
objet est un parent pour chaque mot qui constitue la ligne. Les mots sont représentés parBlock
objets de type WORD.
DetectDocumentText
est une opération synchrone. Pour analyser des documents de manière asynchrone, utilisezStartDocumentTextDetection.
Pour de plus amples informations, veuillez consulterDétection de texte de document.
Syntaxe de la demande
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
}
}
Paramètres de demande
Cette demande accepte les données suivantes au format JSON.
- Document
-
Le document d'entrée sous forme d'octets codés en base64 ou d'un objet Amazon S3. Si vous utilisez l'interface de ligne de commande AWS pour appeler les opérations Amazon Textract, vous ne pouvez pas transmettre d'octets d'image. Le document doit être une image au format JPEG ou PNG.
Si vous utilisez un kit SDK AWS pour appeler Amazon Textract, il est possible que vous n'ayez pas besoin de coder en base64 octets d'image transmis à l'aide de l'option
Bytes
.Type : objet Document
Obligatoire Oui
Syntaxe de la réponse
{
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DetectDocumentTextModelVersion": "string",
"DocumentMetadata": {
"Pages": number
}
}
Eléments de réponse
Si l’action aboutit, le service renvoie une réponse HTTP 200.
Les données suivantes sont renvoyées au format JSON par le service.
- Blocks
-
Tableau d'éléments
Block
objets contenant le texte détecté dans le document.Type : Tableau deBlockobjets
- DetectDocumentTextModelVersion
-
Type : Chaîne
- DocumentMetadata
-
Métadonnées concernant le document. Il contient le nombre de pages détectées dans le document.
Type : objet DocumentMetadata
Erreurs
- AccessDeniedException
-
Vous n'êtes pas autorisé à effectuer l'action. Utilisez l'Amazon Resource Name (ARN) d'un utilisateur ou d'un rôle IAM autorisé pour effectuer l'opération.
HTTP Status Code : 400
- BadDocumentException
-
Amazon Textract n'est pas en mesure de lire le document. Pour plus d'informations sur les limites de documents dans Amazon Textract, voirLimites strictes dans Amazon Textract.
HTTP Status Code : 400
- DocumentTooLargeException
-
Le document ne peut pas être traité car il est trop volumineux. Taille maximale du document pour les opérations synchrone 10 Mo. La taille maximale du document pour les opérations asynchrones est de 500 Mo pour les fichiers PDF.
HTTP Status Code : 400
- InternalServerError
-
Amazon Textract a rencontré un problème de service. Renouvelez votre appel.
HTTP Status Code : 500
- InvalidParameterException
-
Un paramètre d'entrée a enfreint une contrainte. Par exemple, dans les opérations synchrone, un
InvalidParameterException
exception se produit lorsque aucune des optionsS3Object
ouBytes
les valeurs sont fournies dans leDocument
paramètre de demande. Validez votre paramètre avant d'appeler à nouveau l'opération d'API.HTTP Status Code : 400
- InvalidS3ObjectException
-
Amazon Textract n'est pas en mesure d'accéder à l'objet S3 spécifié dans la demande. Pour plus d'informations,Configuration de l'accès à Amazon S3Pour plus d'informations sur le dépannage, consultezRésolutions des problèmes liés à Amazon S3
HTTP Status Code : 400
- ProvisionedThroughputExceededException
-
Le nombre de demandes dépasse votre limite de débit. Si vous avez besoin d'augmenter cette limite, contactez Amazon Textract.
HTTP Status Code : 400
- ThrottlingException
-
Amazon Textract est temporairement dans l'impossibilité de traiter la demande. Renouvelez votre appel.
HTTP Status Code : 500
- UnsupportedDocumentException
-
Le format du document d'entrée n'est pas pris en charge. Les documents utilisés pour les opérations peuvent être au format PNG, JPEG, PDF ou TIFF.
HTTP Status Code : 400
Voir aussi
Pour plus d’informations sur l’utilisation de cette API dans l’un des kits SDK AWS spécifiques au langage, consultez les ressources suivantes :