纯文本文档半结构化文档图像文件和扫描的 PDF 文件 Amazon Textract 输出用于实时分析的最大文档大小半结构化文档中的错误

实时自定义分析的输入

使用自定义模型进行实时分析将单个文档作为输入。以下主题描述了您可以使用的输入文档类型。

主题

纯文本文档
半结构化文档
图像文件和扫描的 PDF 文件
Amazon Textract 输出
用于实时分析的最大文档大小
半结构化文档中的错误

纯文本文档

以 UTF-8 格式的文本形式提供输入文档。

半结构化文档

半结构化文档包括原生 PDF 文档和 Word 文档。

默认情况下，实时自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件，您可以覆盖此默认设置，然后使用 Amazon Textract 提取文本。请参阅设置文本提取选项。

图像文件和扫描的 PDF 文件

支持的图像类型包括 JPEG、PNG 和 TIFF。

默认情况下，自定义实体识别使用 Amazon Textract DetectDocumentText API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument API 操作。请参阅设置文本提取选项。

Amazon Textract 输出

您可以提供 Amazon Textract DetectDocumentText API 或 AnalyzeDocument API 的 JSON 输出作为实时 API 操作的输入，用于自定义分类和自定义实体识别。Amazon Comprehend 支持实时 API 操作的这种输入类型，但不支持控制台。

用于实时分析的最大文档大小

对于所有输入文档类型，输入文件的最大值为一页，不超过 10000 个字符。

下表显示输入文档的最大文件大小。

文件类型	最大大小 (API)	最大大小（控制台）
UTF-8 文本文档	10 KB	10 KB
PDF 文档	10MB	5MB
Word 文档	10MB	1 MB
图像文件	10MB	5MB
Textract 输出文件	1 MB	不适用

半结构化文档中的错误

从半结构化文档ClassifyDocument或图像文件中提取文本时，或 DetectEntitiesAPI 操作可能会遇到文档级或页面级错误。

页面级错误

如果ClassifyDocument或 DetectEntitiesAPI 操作在处理输入文档中的页面时遇到错误，则 API 响应会在错误列表中为每个错误添加一个条目。

错误列表条目中的 ErrorCode 包含以下值之一：

TEXTRACT_BAD_PAGE：Amazon Textract 无法读取该页面。有关 Amazon Textract 页面限制的更多信息，请参阅 Amazon Textract 中的页面配额。
TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED：请求数量超过了您的吞吐量限制。有关 Amazon Textract 吞吐量配额的更多信息，请参阅 Amazon Textract 中的默认配额。
PAGE_CHARACTERS_EXCEEDED：页面上的文本字符太多（最多 10000 个字符）。
PAGE_SIZE_EXCEEDED：最大页面大小为 10 MB。
INTERNAL_SERVER_ERROR：请求遇到了服务问题。请重试 API 请求。

文档级错误

如果ClassifyDocument或 DetectEntitiesAPI 操作在您的输入文档中检测到文档级错误，则 API 会返回InvalidRequestException错误响应。

在错误响应中，Reason 字段包含值 INVALID_DOCUMENT。

Detail 字段包含以下值之一：

DOCUMENT_SIZE_EXCEEDED：文档大小太大。检查您的文件大小并重新提交请求。
UNSUPPORTED_DOC_TYPE：不支持文档类型。检查文件类型并重新提交请求。
PAGE_LIMIT_EXCEEDED：文档中的页数太多。检查文件中的页数并重新提交请求。
TEXTRACT_ACCESS_DENIED_EXCEPTION：拒绝访问 Amazon Textract。确认您的账户有权使用 Amazon Textract DetectDocumentText和 AnalyzeDocumentAPI 操作，然后重新提交申请。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

文档处理

异步分析的输入