Block - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Block

UNBlockreprésente les éléments reconnus dans un document au sein d'un groupe de pixels proches les uns des autres. Les informations renvoyées dans unBlockdépend du type d'opération. Dans la détection de texte pour les documents (par exemple)DetectDocumentText), vous obtenez des informations sur les mots et les lignes de texte détectés. Dans l'analyse de texte (par exemple)AnalyzeDocument), vous pouvez également obtenir des informations sur les champs, les tables et les éléments de sélection détectés dans le document.

Tableau d'élémentsBlockobjets sont renvoyés par des opérations synchrone et asynchrone. Dans les opérations synchrone, telles queDetectDocumentText, tableau deBlockobject représente l'ensemble des résultats. Dans les opérations asynchrones, telles queGetDocumentAnalysis, la baie est renvoyée sur une ou plusieurs réponses.

Pour de plus amples informations, veuillez consulterFonctionnement d'Amazon Textract.

Table des matières

BlockType

Type d'élément de texte reconnu. Dans les opérations de détection de texte, les types suivants sont renvoyés :

  • PAGE- Contient une liste des lignesBlockobjets détectés sur une page de document.

  • MOT- Un mot détecté sur une page de document. Un mot est constitué d'un ou plusieurs caractères latins de base ISO non séparés par des espaces.

  • LIGNE- Une chaîne de mots contigus délimités par des tabulations qui sont détectés sur une page de document.

Dans les opérations d'analyse de texte, les types suivants sont renvoyés :

  • PAGE- Contient une liste des enfantsBlockobjets détectés sur une page de document.

  • KEY_VALUE_SET- Stocke la CLÉ et la VALEURBlockobjets pour le texte lié détecté sur une page de document. Utilisation de l'EntityTypepour déterminer si un objet KEY_VALUE_SET est une cléBlockobjet ou VALUEBlockobjet.

  • MOT- Un mot détecté sur une page de document. Un mot est constitué d'un ou plusieurs caractères latins de base ISO non séparés par des espaces.

  • LIGNE- Une chaîne de mots contigus délimités par des tabulations qui sont détectés sur une page de document.

  • TABLE- Tableau détecté sur une page de document. Un tableau est constitué d'informations basées sur une grille comportant au moins deux lignes ou colonnes, avec une plage de cellules d'une ligne et d'une colonne chacune.

  • CELLULE- Une cellule dans une table détectée. La cellule est le parent du bloc contenant le texte de la cellule.

  • SELECTION_ELEMENT- Un élément de sélection tel qu'un bouton d'option (bouton radio) ou une case à cocher détectée sur une page de document. Utilisez la valeur deSelectionStatuspour déterminer le statut de l'élément de sélection.

Type : Chaîne

Valeurs valides : KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

Obligatoire Non

ColumnIndex

Colonne dans laquelle une cellule de tableau apparaît. La position de la première colonne est 1.ColumnIndexn'est pas renvoyé parDetectDocumentTextetGetDocumentTextDetection.

Type : Entier

Plage valide : La valeur minimale est 0.

Obligatoire Non

ColumnSpan

Nombre de colonnes couvrant une cellule de tableau. Actuellement, cette valeur est toujours 1, même si le nombre de colonnes échelonnées est supérieur à 1.ColumnSpann'est pas renvoyé parDetectDocumentTextetGetDocumentTextDetection.

Type : Entier

Plage valide : La valeur minimale est 0.

Obligatoire Non

Confidence

Le score de confiance d'Amazon Textract dans la précision du texte reconnu et la précision de la géométrie pointe autour du texte reconnu.

Type : Float

Plage valide : La valeur minimale est 0. Valeur maximale fixée à 100.

Obligatoire Non

EntityTypes

Type d'entité. Les éléments suivants peuvent être renvoyés :

  • CLÉ- Identifiant d'un champ du document.

  • VALEUR- Le texte du champ.

EntityTypesn'est pas renvoyé parDetectDocumentTextetGetDocumentTextDetection.

Type : Tableau de chaînes

Valeurs valides : KEY | VALUE

Obligatoire Non

Geometry

L'emplacement du texte reconnu sur l'image. Il comprend un cadre de sélection grossier aligné sur l'axe qui entoure le texte, et un polygone à grain fin pour des informations spatiales plus précises.

Type : objet Geometry

Obligatoire Non

Id

Identificateur du texte reconnu. L'identifiant n'est unique que pour une seule opération.

Type : Chaîne

Modèle : .*\S.*

Obligatoire Non

Page

Page sur laquelle un bloc a été détecté.Pageest renvoyé par des opérations asynchrones. Les valeurs de page supérieures à 1 ne sont renvoyées que pour les documents multipages au format PDF ou TIFF. Une image numérisée (JPEG/PNG), même si elle contient plusieurs pages de document, est considérée comme un document d'une seule page. PourPageest toujours 1. Les opérations synchrone ne reviennent pasPagecar chaque document d'entrée est considéré comme un document d'une seule page.

Type : Entier

Plage valide : La valeur minimale est 0.

Obligatoire Non

Relationships

Liste des blocs enfants du bloc actuel. Par exemple, un objet LINE comporte des blocs enfants pour chaque bloc WORD faisant partie de la ligne de texte. Il n'y a pas d'objets Relationship dans la liste pour les relations qui n'existent pas, par exemple lorsque le bloc actuel ne comporte pas de blocs enfants. La taille de la liste peut être la suivante :

  • 0 - Le bloc ne comporte pas de blocs enfants.

  • 1 - Le bloc comporte des blocs enfants.

Type : Tableau deRelationshipobjets

Obligatoire Non

RowIndex

Ligne dans laquelle se trouve une cellule de tableau. La position de la première ligne est 1.RowIndexn'est pas renvoyé parDetectDocumentTextetGetDocumentTextDetection.

Type : Entier

Plage valide : La valeur minimale est 0.

Obligatoire Non

RowSpan

Nombre de lignes couvrant une cellule de tableau. Actuellement, cette valeur est toujours 1, même si le nombre de lignes étendues est supérieur à 1.RowSpann'est pas renvoyé parDetectDocumentTextetGetDocumentTextDetection.

Type : Entier

Plage valide : La valeur minimale est 0.

Obligatoire Non

SelectionStatus

Statut de sélection d'un élément de sélection, tel qu'un bouton d'option ou une case à cocher.

Type : Chaîne

Valeurs valides : SELECTED | NOT_SELECTED

Obligatoire Non

Text

Le mot ou la ligne de texte reconnu par Amazon Textract.

Type : Chaîne

Obligatoire Non

TextType

Type de texte détecté par Amazon Textract. Peut vérifier s'il y a du texte manuscrit et du texte imprimé.

Type : Chaîne

Valeurs valides : HANDWRITING | PRINTED

Obligatoire Non

Voir aussi

Pour plus d’informations sur l’utilisation de cette API dans l’un des kits SDK AWS spécifiques au langage, consultez les ressources suivantes :