分析文档 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分析文档

Amazon Textract 分析文档和表单以了解检测到的文本之间的关系 Amazon Textract 分析操作会返回 3 种文档提取类别 — 文本、表单和表格。对发票和收据的分析是通过不同的流程处理的,有关详细信息,请参阅分析发票和收据.

提取文本

从文档中提取的原始文本。有关更多信息,请参阅 。文本的行和单词.

提取表单

表单数据链接到从文档中提取的文本项目。Amazon Textract 将表单数据表示为键/值对。在以下示例中,Amazon Textract 检测到的文本行之一是名称:Jane Doe. Amazon Textract 还可以识别密钥(名称:) 和一个值 (Jane Doe)。有关更多信息,请参阅 。表单数据(键值对).

名称:Jane Doe

地址:123 任何街,美国 Anytown

出生日期:1980 年 12-26-

键值对还用于表示从表单中提取的复选框或选项按钮(单选按钮)。

男:

有关更多信息,请参阅 。选择元素.

提取表

Amazon Textract 可以提取表格、表格单元格和表格单元格中的项目,并可以编程以 JSON、.csv 或 .txt 文件返回结果。

名称 Address

Ana Carolina

123 Aany Stown

有关更多信息,请参阅。也可以从表中提取选择元素。有关更多信息,请参阅 。选择元素.

对于已分析的商品,Amazon Textract 将以下商品返回多个Block对象:

  • 检测到的文本的行和单词

  • 检测到的物品的内容

  • 检测到的物品之间的关系

  • 检测到商品的页面

  • 项目在文档页面上的位置

您可以使用同步或异步操作来分析文档中的文本。要同步分析文本,请使用AnalyzeDocument操作,然后将文档作为输入传递。AnalyzeDocument返回整组结果。有关更多信息,请参阅 使用 Amazon Textract 分析文档文本

要异步检测文本,请使用StartDocumentAnalysis开始处理。要获得结果,请致电GetDocumentAnalysis. 结果将在来自的一个或多个回复中返回GetDocumentAnalysis. 有关更多信息以及示例,请参阅 检测或分析多页文档中的文本

要指定要执行哪种类型的分析,可以使用FeatureTypes列出输入参数。将 TABLES 添加到列表以返回有关输入文档中检测到的表的信息,例如,表格单元格、单元格文本和单元格中的选择元素。添加 FORMS 以返回单词关系,例如键值对和选择元素。要执行这两种类型的分析,请将 TABLES 和 FORMS 添加到FeatureTypes.

在文档中检测到的所有行和单词都包含在响应中(包括与FeatureTypes)。