Zeilen und Wörter des Textes - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Zeilen und Wörter des Textes

Entdeckter Text, der von Amazon Textract Textract-Vorgängen zurückgegeben wird, wird in einer Liste vonBlockObjekte. Diese Objekte stellen Textzeilen oder Textwörter dar, die auf einer Dokumentseite erkannt werden. Der folgende Text zeigt zwei Textzeilen, die aus mehreren Wörtern bestehen.

Dies ist Text.

In zwei separaten Zeilen.

Entdeckter Text wird imTextfield einesBlock-Objekt. DieBlockTypebestimmt, ob der Text eine Textzeile (LINE) oder ein Wort (WORD) ist. EINWORTEs handelt sich um ein oder mehrere lateinische ISO-Basiszeichen, die nicht durch Leerzeichen getrennt sind. EINLINIEist eine Reihe von tabulatorgetrennten und zusammenhängenden Wörtern.

Darüber hinaus wird Amazon Textract feststellen, ob ein Textabschnitt handgeschrieben oder gedruckt wurdeTextTypesfield. Diese werden als HANDSCHRIFT bzw. GEDRUCKT zurückgegeben.

Der andereBlockEigenschaften sind allen Blocktypen gemeinsam, wie ID, Konfidenz und Geometrieinformationen. Weitere Informationen finden Sie unter Antwortobjekte für Texterkennung und Dokumentanalyse .

Um nur Zeilen und Wörter zu erkennen, können SieDetectDocumentTextoderStartDocumentTextDetectionaus. Weitere Informationen finden Sie unter Erkennen von Text . Um den erkannten Text (Zeilen und Wörter) und Informationen darüber zu erhalten, wie er sich auf andere Teile des Dokuments bezieht, z. B.AnalyzeDocumentoderStartDocumentAnalysisaus. Weitere Informationen finden Sie unter Analysieren von Dokumenten .

PAGE,LINE, undWORDBlöcke sind in einer Eltern-zu-Kind-Beziehung miteinander verwandt. EINPAGEblock ist das Elternteil für alleLINEblockiert Objekte auf einer Dokumentseite. Da eine LINIE ein oder mehrere Wörter haben kann,Relationshipsarray für einen LINE-Block speichert die IDs für untergeordnete WORD-Blöcke, aus denen die Textzeile besteht.

Das folgende Diagramm zeigt, wie die LinieHallo world.im TextHallo world. Wie geht's dir?wird vertreten durchBlockObjekte.

Nachfolgend ist die JSON-Ausgabe vonDetectDocumentTextwenn der SatzHallo world. Wie geht's dir?wird erkannt. Das erste Beispiel ist der JSON für die Dokumentseite. Beachten Sie, wie die CHILD-IDs es Ihnen ermöglichen, durch das Dokument zu navigieren.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

Das Folgende ist der JSON für die LINE-Blöcke, aus denen die Zeile „Hello, World“ besteht:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

Im Folgenden ist der JSON für den WORD-Block für das WortHallo,:

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

Der letzte JSON ist der WORD-Block für das Wortwelt.:

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },