資料表 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料表

Amazon Textract 可以提取表格中的表格和單元格。例如,當在表單上檢測到下表時,Amazon Textract 會檢測到包含四個單元格的表格。

名稱 Address

安娜·卡羅萊納州

123 任何城市

檢測到的表返回為Block響應中的對象AnalyzeDocumentGetDocumentAnalysis。您可以使用FeatureTypes輸入參數來檢索關於鍵值對、表或兩者的信息。僅對於表格,請使用值TABLES。如需範例,請參閱 將資料表導出為 CSV 檔。如需文件如何由Block對象,請參閲文本檢測和文檔分析響應對象

下圖顯示表中的單個單元格如何由Block物件。

單元格包含WORD用於檢測到的單詞的塊,以及SELECTION_ELEMENT塊的選擇元素(如複選框)。

以下是前面的表(包含四個單元格)的部分 JSON。

頁面塊對象具有 TABLE 塊和檢測到的每行文本的子塊 ID 的列表。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

TABLE 塊包含表中單元格的子 ID 列表。TABLE 塊還包括文檔中表位置的幾何信息。下面的 JSON 顯示該表包含四個單元格,這些單元格在Ids陣列。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

表單元格的塊類型為 CELL。所以此Block對象包含與表中其他單元格相比的有關單元格位置的信息。它還包括單元格在文檔上位置的幾何信息。在上述範例中,505e9581-0d1c-42fb-a214-6ff736822e8c是包含單詞的單元格的子 ID名稱。以下示例是單元格的信息。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

每個單元格在表中都有一個位置,第一個單元格是 1,1。在上述範例中,值為名稱位於第 1 行,第 1 列。具有值的單元格123 任何城市位於第 2 行,第 2 列。單元格塊對象包含此信息在RowIndexColumnIndex和 欄位之間沒有任何差異。子列表包含包含單元格中的文本的 WORD 塊對象的 ID。列表中的單詞按照檢測到的順序,從單元格的左上角到單元格右下角。在上面的示例中,單元格具有一個子 ID,其值為 e9108c8e-0167-4482-989e-8c3e。下面的輸出是用於 ID 值為 E9108c8e-0167-4482-989-89-8cd3e 的字詞塊:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },