异步自定义分析的输入 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

异步自定义分析的输入

您可以向自定义异步分析作业输入多个文档。以下主题描述了您可以使用的输入文档类型。最大文件大小因输入文档的类型而异。

纯文本文档

以 UTF-8 格式的文本格式提供所有纯文本输入文档。下表列出了最大文件大小和其他指南。

注意

所有输入文件均为纯文本时,这些限制适用。

描述 配额/指南
每种文件格式一个文档的最大文件大小(自定义分类) 1 字节 - 10 MB
文档大小(自定义实体识别) 1 字节 - 1 MB
最大文件数,每个文件一个文档 1000000
最大行数,每行一个文档(适用于请求中的所有文件) 1000000
文档语料库大小(所有文档合并为纯文本) 1 字节 - 5 GB

半结构化文档

半结构化文档包括原生 PDF 文档和 Word 文档。

下表列出了最大文件大小和其他指南。

描述 配额/指南
文档大小 (PDF) 1 字节 - 50 MB
文档大小 (Docx) 1 字节 - 5 MB
最大文件数 500
PDF 或 Docx 文件的最大页数 100
文本提取后的文档语料库大小(纯文本,所有文件合并) 1 字节 - 5 GB

默认情况下,自定义分析使用 Amazon Comprehend 解析器从 Word 文件和数字 PDF 文件中提取文本。对于 PDF 文件,您可以覆盖此默认设置,然后使用 Amazon Textract 提取文本。请参阅设置文本提取选项

图像文件和扫描的 PDF 文件

自定义分析支持 JPEG、PNG 和 TIFF 图像。

下表列出了图像的最大文件大小。扫描的 PDF 文件的最大大小与原生 PDF 文件的最大大小相同。

描述 配额/指南
图像尺寸(JPG 或 PNG) 1 字节 - 10 MB
图像尺寸 (TIFF) 1 字节 - 10 MB。最多一页。

有关图像的其他信息,请参阅 图像的最佳实践

默认情况下,Amazon Comprehend 使用 Amazon Textract DetectDocumentText API 操作从图像文件和扫描的 PDF 文件中提取文本。您可以覆盖此默认值以改用 AnalyzeDocument API 操作。请参阅设置文本提取选项

Amazon Textract 输出 JSON 文件

对于自定义实体识别,而不是自定义分类,您可以提供 Amazon Textract AnalyzeDocument API 操作的输出文件作为分析作业的输入。