文本的行和单词 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

文本的行和单词

Amazon Textract 操作返回的检测到的文本将返回在Block对象。这些对象表示在文档页面上检测到的文本行或文本单词。以下文本显示了由多个单词组成的两行文本。

这是文本。

在两行中。

检测到的文本将在Text字段中的Block对象。这些区域有:BlockType字段确定文本是文本行 (LINE) 还是单词 (WORD)。一个是一个或多个 ISO 基本拉丁文字母字符,不用空格分隔。一个线是一串制表符分隔的连续单词。

此外,Amazon Textract 将确定一段文本是使用手写还是使用TextTypes字段中返回的子位置类型。这些分别以手写和印刷的形式返回。

另一个Block属性对于所有区块类型都是共有的,例如 ID、置信度和几何信息。有关更多信息,请参阅 文本检测和文档分析响应对象

要只检测行和单词,你可以使用DetectDocumentText要么StartDocumentTextDetection. 有关更多信息,请参阅 检测文本。要获取检测到的文本(行和单词)以及有关其与文档其他部分(例如表格)的关系的信息,可以使用AnalyzeDocument要么StartDocumentAnalysis. 有关更多信息,请参阅 分析文档

PAGELINE, 和WORD在父子关系中,区块彼此相关。一个PAGE方块是所有人的父项LINE阻止文档页面上的对象。因为 LINE 可以有一个或多个单词,因此RelationshipsLINE 块的数组存储构成文本行的子 WORD 块的 ID。

下图显示了该行的方式。Hello world。中的文本Hello world。你怎么样?代表为Block对象。

以下是来自的 JSON 输出DetectDocumentText当句子Hello world。你怎么样?检测到的对象。第一个例子是文档页面的 JSON。请注意孩子 ID 如何使您能够在文档中导航。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

以下是构成 “你好,世界” 行的 LINE 块的 JSON:

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

以下是该词的 WORD 块的 JSONHello

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

最后一个 JSON 是这个词的 WORD 块世界。

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },