实时自定义分析的输入 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

实时自定义分析的输入

使用自定义模型进行实时分析将单个文档作为输入。以下主题描述了您可以使用的输入文档类型。

纯文本文档

以 UTF-8 格式的文本形式提供输入文档。

半结构化文档

半结构化文档包括原生 PDF 文档和 Word 文档。

默认情况下,实时自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件,您可以覆盖此默认设置,然后使用 Amazon Textract 提取文本。请参阅设置文本提取选项

图像文件和扫描的 PDF 文件

支持的图像类型包括 JPEG、PNG 和 TIFF。

默认情况下,自定义实体识别使用 Amazon Textract DetectDocumentText API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument API 操作。请参阅设置文本提取选项

Amazon Textract 输出

您可以提供 Amazon Textract DetectDocumentText API 或 AnalyzeDocument API 的 JSON 输出作为实时 API 操作的输入,用于自定义分类和自定义实体识别。Amazon Comprehend 支持实时 API 操作的这种输入类型,但不支持控制台。

用于实时分析的最大文档大小

对于所有输入文档类型,输入文件的最大值为一页,不超过 10000 个字符。

下表显示输入文档的最大文件大小。

文件类型 最大大小 (API) 最大大小(控制台)
UTF-8 文本文档 10 KB 10 KB
PDF 文档 10MB 5MB
Word 文档 10MB 1 MB
图像文件 10MB 5MB
Textract 输出文件 1 MB 不适用

半结构化文档中的错误

从半结构化文档ClassifyDocument或图像文件中提取文本时,或 DetectEntitiesAPI 操作可能会遇到文档级或页面级错误。

页面级错误

如果ClassifyDocumentDetectEntitiesAPI 操作在处理输入文档中的页面时遇到错误,则 API 响应会在错误列表中为每个错误添加一个条目。

错误列表条目中的 ErrorCode 包含以下值之一:

  • TEXTRACT_BAD_PAGE:Amazon Textract 无法读取该页面。有关 Amazon Textract 页面限制的更多信息,请参阅 Amazon Textract 中的页面配额

  • TEXTRACT_PROVISIONED_THROUGHPUT_EXCEEDED:请求数量超过了您的吞吐量限制。有关 Amazon Textract 吞吐量配额的更多信息,请参阅 Amazon Textract 中的默认配额

  • PAGE_CHARACTERS_EXCEEDED:页面上的文本字符太多(最多 10000 个字符)。

  • PAGE_SIZE_EXCEEDED:最大页面大小为 10 MB。

  • INTERNAL_SERVER_ERROR:请求遇到了服务问题。请重试 API 请求。

文档级错误

如果ClassifyDocumentDetectEntitiesAPI 操作在您的输入文档中检测到文档级错误,则 API 会返回InvalidRequestException错误响应。

在错误响应中,Reason 字段包含值 INVALID_DOCUMENT

Detail 字段包含以下值之一:

  • DOCUMENT_SIZE_EXCEEDED:文档大小太大。检查您的文件大小并重新提交请求。

  • UNSUPPORTED_DOC_TYPE:不支持文档类型。检查文件类型并重新提交请求。

  • PAGE_LIMIT_EXCEEDED:文档中的页数太多。检查文件中的页数并重新提交请求。

  • TEXTRACT_ACCESS_DENIED_EXCEPTION:拒绝访问 Amazon Textract。确认您的账户有权使用 Amazon Textract DetectDocumentTextAnalyzeDocumentAPI 操作,然后重新提交申请。