Tabellen - Amazon Textract

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tabellen

Amazon Textract kann Tabellen und die Zellen in einer Tabelle extrahieren. Wenn beispielsweise die folgende Tabelle in einem Formular erkannt wird, erkennt Amazon Textract eine Tabelle mit vier Zellen.

Name Adresse

Ana Carolina

123 Any Town

Erkannte Tabellen werden zurückgegeben alsBlockObjekte in den Antworten vonAnalyzeDocumentundGetDocumentAnalysisaus. Sie können dasFeatureTypesInput-Parameter zum Abrufen von Informationen über Schlüssel-Wert-Paare, Tabellen oder beides. Verwenden Sie nur für Tabellen den WertTABLESaus. Ein Beispiel finden Sie unter Exportieren von Tabellen in eine CSV-Datei. Für allgemeine Informationen, wie ein Dokument dargestellt wirdBlockobjekte, sieheAntwortobjekte für Texterkennung und Dokumentanalyseaus.

Das folgende Diagramm zeigt, wie eine einzelne Zelle in einer Tabelle durchBlockObjekte.

Eine Zelle enthältWORDBlöcke für erkannte Wörter undSELECTION_ELEMENTBlöcke für Selektionselemente wie Kontrollkästchen.

Das Folgende ist ein teilweiser JSON für die vorhergehende Tabelle, die vier Zellen enthält.

Das PAGE Block -Objekt verfügt über eine Liste von CHILD-Block-IDs für den TABLE-Block und jede erkannte Textzeile.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

Der TABLE-Block enthält eine Liste von untergeordneten IDs für die Zellen in der Tabelle. Ein TABLE-Block enthält auch Geometrieinformationen für die Tabellenposition im Dokument. Der folgende JSON zeigt, dass die Tabelle vier Zellen enthält, die imIdsArray.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

Der Blocktyp für die Tabellenzellen ist CELL. DieBlock-Objekt für jede Zelle enthält Informationen über die Zellenposition im Vergleich zu anderen Zellen in der Tabelle. Es enthält auch Geometrieinformationen für die Position der Zelle im Dokument. Für das obige Beispiel gilt:505e9581-0d1c-42fb-a214-6ff736822e8cist die untergeordnete ID für die Zelle, die das Wort enthältNameaus. Das folgende Beispiel sind die Informationen für die Zelle.

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

Jede Zelle hat eine Position in einer Tabelle, wobei die erste Zelle 1,1 ist. Im vorherigen Beispiel wird die Zelle mit dem WertNamebefindet sich in Zeile 1, Spalte 1. Die Zelle mit dem Wert123 Any Townbefindet sich in Zeile 2, Spalte 2. Ein Zellblockobjekt enthält diese Informationen imRowIndexundColumnIndexunterscheiden sich nicht. Die untergeordnete Liste enthält die IDs für die WORD-Block-Objekte, die den Text enthalten, der sich innerhalb der Zelle befindet. Die Wörter in der Liste befinden sich in der Reihenfolge, in der sie erkannt werden, von oben links in der Zelle bis unten rechts in der Zelle. Im vorhergehenden Beispiel hat die Zelle eine untergeordnete ID mit dem Wert e9108c8e-0167-4482-989e-8b6cd3c3653e. Die folgende Ausgabe ist für den WORD-Block mit dem ID-Wert von e9108c8e-0167-4482-989e-8b6cd3c3653e:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },