用于异步分析的文件格式

使用模型运行异步分析时，您可以选择输入文档的格式：One document per line 或 one document per file。您使用的格式取决于您要分析的文档类型，如下表中所述。

描述	格式
输入包含多个文件。每个文件包含一个输入文档。这种格式最适合大型文档的集合，例如报纸文章或科学论文。此外，使用原生文档分类器对半结构化文档（图像、PDF 或 Docx 文件）使用此格式。	每个文件一个文档
输入是一个或多个文件。文件中的每一行都是一个单独的输入文档。这种格式最适合简短的文档，例如短信或社交媒体帖子。	每行一个文档

描述

格式

输入包含多个文件。每个文件包含一个输入文档。这种格式最适合大型文档的集合，例如报纸文章或科学论文。

此外，使用原生文档分类器对半结构化文档（图像、PDF 或 Docx 文件）使用此格式。

每个文件一个文档

输入是一个或多个文件。文件中的每一行都是一个单独的输入文档。这种格式最适合简短的文档，例如短信或社交媒体帖子。

每行一个文档

每个文件一个文档

对于 one document per file 格式，每个文件代表一个输入文档。

每行一个文档

在 One document per line 格式中，每个文档都放在单独的行上，并且不使用标题。标签不包含在每行中（因为您还不知道文档的标签）。文件中的每一行（单个文档的结尾）必须以换行符 (LF, \n)、回车符 (CR, \r) 或两者兼有 (CRLF, \r\n) 结尾。您不能使用 UTF-8 行分隔符 (u+2028) 来结束一行。

以下示例显示了输入文件的格式。


Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n

对于任一格式，文本文件都要使用 UTF-8 编码。准备好文件后，将其放入用于输入数据的 S3 存储桶中。

启动分类任务时，您需要为输入数据指定 Amazon S3 位置。URI 必须与所调用的 API 终端节点位于同一区域。URI 可以指向单个文件（例如使用“每行一个文档”的方法），也可以是一组数据文件的前缀。

例如，如果您使用 URI，如果前缀是单个文件 S3://bucketName/prefix，则 Amazon Comprehend 会使用该文件作为输入。如果有多个文件以该前缀开头，Amazon Comprehend 将使用所有文件作为输入。

授权 Amazon Comprehend 访问包含文档集合和输出文件的 S3 存储桶。有关更多信息，请参阅异步操作所需的基于角色的权限。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

正在运行异步分析任务

分析任务（控制台）