Block - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Block

一个Block表示在彼此接近的一组像素内在文档中识别的项目。返回的信息在Block对象取决于操作的类型。在文档的文本检测中(例如DetectDocumentText),您可以获得有关检测到的单词和文本行的信息。在文本分析中(例如AnalyzeDocument),您还可以获取有关文档中检测到的字段、表格和选择元素的信息。

数组Block对象由同步操作和异步操作返回。在同步操作中,例如DetectDocumentText,数组Block对象是整个结果集。在异步操作中,例如GetDocumentAnalysis,数组将通过一个或多个响应返回。

有关更多信息,请参阅 。Amazon Textract 的工作原理.

目录

BlockType

已识别的文本项目的类型。在文本检测操作中,返回以下类型:

  • -包含 LINE 列表Block在文档页面上检测到的对象。

  • 单词-在文档页面上检测到的单词。单词 是一个或多个 ISO 基本拉丁字母字符,不用空格分隔。

  • 线-在文档页面上检测到的制表符分隔的连续单词的字符串。

在文本分析操作中,返回以下类型:

  • -包含孩子列表Block在文档页面上检测到的对象。

  • KEY_VALUE_SET-存储 KEY 和 VALUEBlock在文档页面上检测到的链接文本的对象。使用EntityType字段来确定 KEY_VALUE_SET 对象是否为 KEYBlock对象或 VALUEBlock对象。

  • 单词-在文档页面上检测到的单词。单词 是一个或多个 ISO 基本拉丁字母字符,不用空格分隔。

  • 线-在文档页面上检测到的制表符分隔的连续单词的字符串。

  • 桌子-在文档页面上检测到的表格。表格是基于网格的信息,包含两行或多列,单元格跨度为一行和一列。

  • 细胞-检测到的桌子里的一个细胞。单元格是包含单元格中文本的块的父项。

  • 选择_元素-在文档页面上检测到的选择元素,例如选项按钮(单选按钮)或复选框。使用的值SelectionStatus以确定选择元素的状态。

类型: 字符串

有效值: KEY_VALUE_SET | PAGE | LINE | WORD | TABLE | CELL | SELECTION_ELEMENT

:必需 否

ColumnIndex

显示表格单元格的列。第一列位置是 1。ColumnIndex不是由DetectDocumentTextGetDocumentTextDetection.

类型: 整数

有效范围:最小值为 0。

:必需 否

ColumnSpan

表格单元格跨越的列数。目前,该值始终为 1,即使跨越的列数大于 1。ColumnSpan不是由DetectDocumentTextGetDocumentTextDetection.

类型: 整数

有效范围:最小值为 0。

:必需 否

Confidence

Amazon Textract 对已识别文本的准确性以及几何结构的准确性指向识别文本周围的信心得分。

类型: Float

有效范围:最小值为 0。最大值为 100。

:必需 否

EntityTypes

实体的类型。可能返回以下内容:

  • 密钥-文档上字段的标识符。

  • -字段文本。

EntityTypes不是由DetectDocumentTextGetDocumentTextDetection.

类型: 字符串数组

有效值: KEY | VALUE

:必需 否

Geometry

图像上可识别的文本的位置。它包括围绕文本的轴对齐、粗糙的边界框以及一个用于更准确的空间信息的精细多边形。

类型:Geometry 对象

:必需 否

Id

识别文本的标识符。该标识符只对于单个操作是唯一的。

类型: 字符串

模式:.*\S.*

:必需 否

Page

检测到块的页面。Page是由异步操作返回的。仅对于 PDF 或 TIFF 格式的多页文档返回大于 1 的页面值。扫描的图像 (JPEG/PNG),即使它包含多个文档页面,也被视为单页文档。的价值Page始终为 1。同步操作不会返回Page因为每个输入文档都被视为单页文档。

类型: 整数

有效范围:最小值为 0。

:必需 否

Relationships

当前区块的子区块的列表。例如,LINE 对象都有作为文本行一部分的每个 WORD 块的子块。列表中没有关系不存在的关系对象,例如当前区块没有子块时。列表大小可以是以下内容:

  • 0-该区块没有子方块。

  • 1-该区块有子方块。

类型: 数组Relationship对象

:必需 否

RowIndex

表格单元格所在的行。第一行位置是 1。RowIndex不是由DetectDocumentTextGetDocumentTextDetection.

类型: 整数

有效范围:最小值为 0。

:必需 否

RowSpan

表格单元格跨越的行数。目前,该值始终为 1,即使跨越的行数大于 1。RowSpan不是由DetectDocumentTextGetDocumentTextDetection.

类型: 整数

有效范围:最小值为 0。

:必需 否

SelectionStatus

选择元素的选择状态,例如选项按钮或复选框。

类型: 字符串

有效值: SELECTED | NOT_SELECTED

:必需 否

Text

Amazon Textract 识别的单词或一行文本。

类型: 字符串

:必需 否

TextType

Amazon Textract 检测到的文本类型。可以检查手写文本和印刷文本。

类型: 字符串

有效值: HANDWRITING | PRINTED

:必需 否

另请参阅

有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: