Lignes et mots de texte - Amazon Textract

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Lignes et mots de texte

Le texte détecté renvoyé par les opérations Amazon Textract est renvoyé dans une liste deBlockobjets. Ces objets représentent des lignes de texte ou des mots textuels détectés sur une page de document. Le texte suivant présente deux lignes de texte composées de plusieurs mots.

Il s'agit d'un texte.

En deux lignes distinctes.

Le texte détecté est renvoyé dans leTextd'un champBlockobjet. LeBlockTypedétermine si le texte est une ligne de texte (LINE) ou un mot (WORD). UNMOTest un ou plusieurs caractères latins de base ISO non séparés par des espaces. UNLIGNEest une chaîne de mots contigus et délimités par des tabulations.

En outre, Amazon Textract déterminera si un morceau de texte a été manuscrit ou imprimé à l'aide de laTextTypes. Ils reviennent respectivement sous forme d'écriture manuscrite et d'impression.

L'autreBlocksont communes à tous les types de blocs, tels que l'ID, la confiance et les informations de géométrie. Pour plus d'informations, consultez Objets de réponse Détection de texte et analyse de documents.

Pour détecter uniquement les lignes et les mots, vous pouvez utiliserDetectDocumentTextouStartDocumentTextDetection. Pour plus d'informations, consultez Détection de texte. Pour obtenir le texte détecté (lignes et mots) et des informations sur sa relation avec d'autres parties du document, telles que les tableaux, vous pouvez utiliserAnalyzeDocumentouStartDocumentAnalysis. Pour plus d'informations, consultez Analyse des documents.

PAGE,LINE, etWORDles blocs sont liés les uns aux autres dans une relation parent-enfant. UNPAGEblock est le parent de tousLINEblocs d'objets sur une page de document. Parce qu'une ligne peut comporter un ou plusieurs mots, laRelationshipspour un bloc LINE stocke les ID des blocs WORD enfants qui constituent la ligne de texte.

Le schéma suivant montre comment la ligneHello World.dans le texteHello World. Comment allez-vous ?est représenté parBlockobjets.

Voici la sortie JSON deDetectDocumentTextquand la phraseHello World. Comment allez-vous ?est détecté. Le premier exemple est le JSON de la page de document. Notez comment les ID CHILD vous permettent de naviguer dans le document.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

Voici le JSON pour les blocs LINE qui composent la ligne « Hello, World » :

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

Voici le code JSON du bloc WORD pour le motHello, :

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

Le JSON final est le bloc WORD du mot. :

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },