DetectDocumentText - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

DetectDocumentText

检测输入文档中的文本。Amazon Textract 可以检测文本行和构成一行文本的单词。输入文档必须是 JPEG、PNG、PDF 或 TIFF 格式的图像。DetectDocumentText在数组中返回检测到的文本Block对象。

每个文档页面都有关联Block的类型 PAGE。每页Block对象是 LINE 的父Block表示页面上检测到的文本行的对象。一行Block对象是构成该行的每个单词的父项。单词的表示为BlockWORD 类型的对象。

DetectDocumentText是一个同步操作。要异步分析文档,请使用StartDocumentTextDetection.

有关更多信息,请参阅 。文本检测.

请求语法

{ "Document": { "Bytes": blob, "S3Object": { "Bucket": "string", "Name": "string", "Version": "string" } } }

请求参数

请求接受采用 JSON 格式的以下数据。

Document

作为 base64 编码的字节或 Amazon S3 对象的输入文档。如果您使用 AWS CLI 调用 Amazon Textract 操作,则无法传递图像字节。文档必须为 JPEG 或 PNG 格式的图像。

如果您使用 AWS 开发工具包调用 Amazon Textract,则可能不需要对使用Bytes字段中返回的子位置类型。

类型:Document 对象

是必需的:是

响应语法

{ "Blocks": [ { "BlockType": "string", "ColumnIndex": number, "ColumnSpan": number, "Confidence": number, "EntityTypes": [ "string" ], "Geometry": { "BoundingBox": { "Height": number, "Left": number, "Top": number, "Width": number }, "Polygon": [ { "X": number, "Y": number } ] }, "Id": "string", "Page": number, "Relationships": [ { "Ids": [ "string" ], "Type": "string" } ], "RowIndex": number, "RowSpan": number, "SelectionStatus": "string", "Text": "string", "TextType": "string" } ], "DetectDocumentTextModelVersion": "string", "DocumentMetadata": { "Pages": number } }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

Blocks

数组Block包含文档中检测到的文本的对象。

类型: 数组Block对象

DetectDocumentTextModelVersion

类型: 字符串

DocumentMetadata

关于文档的元数据。它包含文档中检测到的页数。

类型:DocumentMetadata 对象

错误

AccessDeniedException

您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。

HTTP 状态代码:400

BadDocumentException

Amazon Textract 无法阅读文档。有关 Amazon Textract 中文档限制的更多信息,请参阅Amazon Textract 中的硬性限制.

HTTP 状态代码:400

DocumentTooLargeException

无法处理该文档,因为它太大。同步操作的最大文档大小为 10 MB。对于 PDF 文件,异步操作的最大文档大小为 500 MB。

HTTP 状态代码:400

InternalServerError

Amazon Textract 遇到了一个服务问题。重新尝试您的调用。

HTTP 状态代码:500

InvalidParameterException

有一个输入参数违反了约束。例如,在同步操作中,InvalidParameterException如果两者都不会发生异常S3Object要么Bytes值在Document请求参数。先验证您的参数,然后重新调用 API 操作。

HTTP 状态代码:400

InvalidS3ObjectException

Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除

HTTP 状态代码:400

ProvisionedThroughputExceededException

请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。

HTTP 状态代码:400

ThrottlingException

Amazon Textract 暂时无法处理该请求。重新尝试您的调用。

HTTP 状态代码:500

UnsupportedDocumentException

不支持输入文档的格式。用于操作的文档可以是 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 状态代码:400

另请参阅

有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: