本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AnalyzeDocument
分析输入文档以了解检测到的项目间的关系。
返回的信息类型如下:
-
表单数据(键值对)。两个相关信息会分两个返回Block对象,每种类型
KEY_VALUE_SET
键:KeyBlock
对象和一个 VALUEBlock
对象。例如,名称:安娜·席尔瓦包含密钥和值。名称:是关键。安娜·席尔瓦是值。 -
表格和表格单元格数据。一张桌子
Block
对象包含有关检测到的表的信息。一个单元格Block
对象将为表中的每个单元格返回。 -
文本的行和单词。一行
Block
对象包含一个或多个 WORDBlock
对象。返回文档中检测到的所有行和单词(包括与FeatureTypes
)。
可以在表单数据和表格中检测到选择元素,例如复选框和选项按钮(单选按钮)。一个选择 _ 元素Block
对象包含有关选择元素的信息,包括选择状态。
您可以通过指定FeatureTypes
列表。
输出将在列表中返回Block
对象。
AnalyzeDocument
是一个同步操作。要异步分析文档,请使用StartDocumentAnalysis.
有关更多信息,请参阅 。文档文本分析.
请求语法
{
"Document": {
"Bytes": blob
,
"S3Object": {
"Bucket": "string
",
"Name": "string
",
"Version": "string
"
}
},
"FeatureTypes": [ "string
" ],
"HumanLoopConfig": {
"DataAttributes": {
"ContentClassifiers": [ "string
" ]
},
"FlowDefinitionArn": "string
",
"HumanLoopName": "string
"
}
}
请求参数
请求接受采用 JSON 格式的以下数据。
- Document
-
作为 base64 编码的字节或 Amazon S3 对象的输入文档。如果您使用 AWS CLI 调用 Amazon Textract 操作,则无法传递图像字节。文档必须是 JPEG、PNG、PDF 或 TIFF 格式的图像。
如果您使用 AWS 开发工具包调用 Amazon Textract,则可能不需要对使用
Bytes
字段中返回的子位置类型。类型:Document 对象
必填项:是
- FeatureTypes
-
要执行的分析类型的列表。将 TABLES 添加到列表以返回有关在输入文档中检测到的表的信息。添加 FORMS 以返回检测到的表单数据。要执行这两种类型的分析,请将 TABLES 和 FORMS 添加到
FeatureTypes
. 在文档中检测到的所有行和单词都包含在响应中(包括与值无关的文本FeatureTypes
)。类型: 字符串数组
有效值:
TABLES | FORMS
必填项:是
- HumanLoopConfig
-
设置用于分析文档的循环中人员工作流程的配置。
类型:HumanLoopConfig 对象
必填项:否
响应语法
{
"AnalyzeDocumentModelVersion": "string",
"Blocks": [
{
"BlockType": "string",
"ColumnIndex": number,
"ColumnSpan": number,
"Confidence": number,
"EntityTypes": [ "string" ],
"Geometry": {
"BoundingBox": {
"Height": number,
"Left": number,
"Top": number,
"Width": number
},
"Polygon": [
{
"X": number,
"Y": number
}
]
},
"Id": "string",
"Page": number,
"Relationships": [
{
"Ids": [ "string" ],
"Type": "string"
}
],
"RowIndex": number,
"RowSpan": number,
"SelectionStatus": "string",
"Text": "string",
"TextType": "string"
}
],
"DocumentMetadata": {
"Pages": number
},
"HumanLoopActivationOutput": {
"HumanLoopActivationConditionsEvaluationResults": "string",
"HumanLoopActivationReasons": [ "string" ],
"HumanLoopArn": "string"
}
}
响应元素
如果此操作成功,则该服务将会发送回 HTTP 200 响应。
服务以 JSON 格式返回的以下数据。
- AnalyzeDocumentModelVersion
-
用于分析文档的模型的版本。
类型: 字符串
- Blocks
-
检测到和分析的物品
AnalyzeDocument
.类型: 的数组数组Block对象
- DocumentMetadata
-
有关分析文档的元数据。一个例子是页数。
类型:DocumentMetadata 对象
- HumanLoopActivationOutput
-
显示循环中的人类评估结果。
错误
- AccessDeniedException
-
您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。
HTTP 状态代码:400
- BadDocumentException
-
Amazon Textract 无法阅读文档。有关 Amazon Textract 中文档限制的更多信息,请参阅Amazon Textract 中的硬性限制.
HTTP 状态代码:400
- DocumentTooLargeException
-
无法处理该文档,因为它太大。同步操作的最大文档大小为 10 MB。对于 PDF 文件,异步操作的最大文档大小为 500 MB。
HTTP 状态代码:400
- HumanLoopQuotaExceededException
-
表示您已超出可用循环工作流程中的最大活跃人员数量。
HTTP 状态代码:400
- InternalServerError
-
Amazon Textract 遇到了一个服务问题。重新尝试您的调用。
HTTP 状态代码:500
- InvalidParameterException
-
有一个输入参数违反了约束。例如,在同步操作中,
InvalidParameterException
如果两者都不会发生异常S3Object
要么Bytes
值在Document
请求参数。先验证您的参数,然后重新调用 API 操作。HTTP 状态代码:400
- InvalidS3ObjectException
-
Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息,配置对 Amazon S3 的访问权限有关故障排除信息,请参阅。Amazon S3 故障排除
HTTP 状态代码:400
- ProvisionedThroughputExceededException
-
请求数超出了您的吞吐量限制。如要增加此限制,请联系 Amazon Textract。
HTTP 状态代码:400
- ThrottlingException
-
Amazon Textract 暂时无法处理该请求。重新尝试您的调用。
HTTP 状态代码:500
- UnsupportedDocumentException
-
不支持输入文档的格式。用于操作的文档可以是 PNG、JPEG、PDF 或 TIFF 格式。
HTTP 状态代码:400
另请参阅
有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息,请参阅以下内容: