表 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Textract 可以提取表格和表格中的单元格。例如,在表单上检测到下表时,Amazon Textract 会检测到包含四个单元格的表格。

名称 Address

Ana Carolina

123 Aany Stown

检测到的表将返回为Block来自的响应中的对象AnalyzeDocumentGetDocumentAnalysis. 您可以使用FeatureTypes输入参数来检索关于键值对、表或两者的信息。仅对于表格,请使用值TABLES. 有关示例,请参阅 将表导出到 CSV 文件。有关文档如何表示的一般信息,请参阅Block对象,请参阅文本检测和文档分析响应对象.

下图显示了表中的单个单元格的表示方式。Block对象。

包含单元格WORD阻止检测到的单词,以及SELECTION_ELEMENT选择元素(例如复选框)的块。

以下是上表的部分 JSON,该表有四个单元格。

PAGE Block 对象有一个 TABLE 块的子块 ID 列表以及检测到的每一行文本。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

TABLE 模块包括表中单元格的子 ID 列表。TABLE 模块还包括文档中表位置的几何信息。下面的 JSON 显示该表包含四个单元格,这四个单元格列在Ids数组。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

表格单元格的块类型为 CELL。这些区域有:Block每个单元格的对象包括与表中其他单元格相比单元格的单元格位置的信息。它还包括文档中单元格位置的几何信息。在上述示例中,505e9581-0d1c-42fb-a214-6ff736822e8c是包含该单词的单元格的子 ID名称. 以下示例是该单元格的信息。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

每个单元格在桌子中都有一个位置,第一个单元格为 1,1。在上一示例中,具有值的单元格名称位于第 1 行,第 1 列。具有值的单元格123 Aany Stown位于第 2 行,第 2 列。单元格块对象包含此信息在RowIndexColumnIndex字段之间没有不同。子列表包含包含单元格中文本的 WORD Block 对象的 ID。列表中的单词按照检测到它们的顺序,从单元格的左上角到单元格的右下角。在前面的示例中,单元格具有一个值为 e9108c8e-0167-4482-989e-8b6cd3c3653e 的子 ID。以下输出针对 ID 值为 e9108c8e-0167-4482-989e-8e-8b6cd3c3653e 的字块:

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },