AnalyzeDocument

分析输入文档以了解检测到的项目间的关系。

返回的信息类型如下：

表单数据（键值对）。两个相关信息会分两个返回Block对象，每种类型KEY_VALUE_SET键：KeyBlock对象和一个 VALUEBlock对象。例如，名称：安娜·席尔瓦包含密钥和值。名称：是关键。安娜·席尔瓦是值。
表格和表格单元格数据。一张桌子Block对象包含有关检测到的表的信息。一个单元格Block对象将为表中的每个单元格返回。
文本的行和单词。一行Block对象包含一个或多个 WORDBlock对象。返回文档中检测到的所有行和单词（包括与FeatureTypes)。

可以在表单数据和表格中检测到选择元素，例如复选框和选项按钮（单选按钮）。一个选择 _ 元素Block对象包含有关选择元素的信息，包括选择状态。

您可以通过指定FeatureTypes列表。

输出将在列表中返回Block对象。

AnalyzeDocument是一个同步操作。要异步分析文档，请使用StartDocumentAnalysis.

有关更多信息，请参阅。文档文本分析.

请求语法


{
   "Document": { 
      "Bytes": blob,
      "S3Object": { 
         "Bucket": "string",
         "Name": "string",
         "Version": "string"
      }
   },
   "FeatureTypes": [ "string" ],
   "HumanLoopConfig": { 
      "DataAttributes": { 
         "ContentClassifiers": [ "string" ]
      },
      "FlowDefinitionArn": "string",
      "HumanLoopName": "string"
   }
}

请求参数

请求接受采用 JSON 格式的以下数据。

Document

作为 base64 编码的字节或 Amazon S3 对象的输入文档。如果您使用 AWS CLI 调用 Amazon Textract 操作，则无法传递图像字节。文档必须是 JPEG、PNG、PDF 或 TIFF 格式的图像。

如果您使用 AWS 开发工具包调用 Amazon Textract，则可能不需要对使用Bytes字段中返回的子位置类型。

类型：Document 对象

必填项：是

FeatureTypes

要执行的分析类型的列表。将 TABLES 添加到列表以返回有关在输入文档中检测到的表的信息。添加 FORMS 以返回检测到的表单数据。要执行这两种类型的分析，请将 TABLES 和 FORMS 添加到FeatureTypes. 在文档中检测到的所有行和单词都包含在响应中（包括与值无关的文本FeatureTypes)。

类型: 字符串数组

有效值: TABLES | FORMS

必填项：是

HumanLoopConfig

设置用于分析文档的循环中人员工作流程的配置。

类型：HumanLoopConfig 对象

必填项：否

响应语法


{
   "AnalyzeDocumentModelVersion": "string",
   "Blocks": [ 
      { 
         "BlockType": "string",
         "ColumnIndex": number,
         "ColumnSpan": number,
         "Confidence": number,
         "EntityTypes": [ "string" ],
         "Geometry": { 
            "BoundingBox": { 
               "Height": number,
               "Left": number,
               "Top": number,
               "Width": number
            },
            "Polygon": [ 
               { 
                  "X": number,
                  "Y": number
               }
            ]
         },
         "Id": "string",
         "Page": number,
         "Relationships": [ 
            { 
               "Ids": [ "string" ],
               "Type": "string"
            }
         ],
         "RowIndex": number,
         "RowSpan": number,
         "SelectionStatus": "string",
         "Text": "string",
         "TextType": "string"
      }
   ],
   "DocumentMetadata": { 
      "Pages": number
   },
   "HumanLoopActivationOutput": { 
      "HumanLoopActivationConditionsEvaluationResults": "string",
      "HumanLoopActivationReasons": [ "string" ],
      "HumanLoopArn": "string"
   }
}

响应元素

如果此操作成功，则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

AnalyzeDocumentModelVersion

用于分析文档的模型的版本。

类型: 字符串

Blocks

检测到和分析的物品AnalyzeDocument.

类型: 的数组数组Block对象

DocumentMetadata

有关分析文档的元数据。一个例子是页数。

类型：DocumentMetadata 对象

HumanLoopActivationOutput

显示循环中的人类评估结果。

类型：HumanLoopActivationOutput 对象

错误

AccessDeniedException

您无权执行该操作。使用授权用户或 IAM 角色的 Amazon 资源名称 (ARN) 来执行操作。

HTTP 状态代码：400

BadDocumentException

Amazon Textract 无法阅读文档。有关 Amazon Textract 中文档限制的更多信息，请参阅Amazon Textract 中的硬性限制.

HTTP 状态代码：400

DocumentTooLargeException

无法处理该文档，因为它太大。同步操作的最大文档大小为 10 MB。对于 PDF 文件，异步操作的最大文档大小为 500 MB。

HTTP 状态代码：400

HumanLoopQuotaExceededException

表示您已超出可用循环工作流程中的最大活跃人员数量。

HTTP 状态代码：400

InternalServerError

Amazon Textract 遇到了一个服务问题。重新尝试您的调用。

HTTP 状态代码：500

InvalidParameterException

有一个输入参数违反了约束。例如，在同步操作中，InvalidParameterException如果两者都不会发生异常S3Object要么Bytes值在Document请求参数。先验证您的参数，然后重新调用 API 操作。

HTTP 状态代码：400

InvalidS3ObjectException

Amazon Textract 无法访问请求中指定的 S3 对象。有关更多信息，配置对 Amazon S3 的访问权限有关故障排除信息，请参阅。Amazon S3 故障排除

HTTP 状态代码：400

ProvisionedThroughputExceededException

请求数超出了您的吞吐量限制。如要增加此限制，请联系 Amazon Textract。

HTTP 状态代码：400

ThrottlingException

Amazon Textract 暂时无法处理该请求。重新尝试您的调用。

HTTP 状态代码：500

UnsupportedDocumentException

不支持输入文档的格式。用于操作的文档可以是 PNG、JPEG、PDF 或 TIFF 格式。

HTTP 状态代码：400

另请参阅

有关在特定语言的AWS软件开发工具包中使用此 API 的更多信息，请参阅以下内容：

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

操作

AnalyzeExpense