本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
用于异步分析的文件格式
使用模型运行异步分析时,您可以选择输入文档的格式:One document per line
或 one document per file
。您使用的格式取决于您要分析的文档类型,如下表中所述。
描述 | 格式 |
---|---|
输入包含多个文件。每个文件包含一个输入文档。这种格式最适合大型文档的集合,例如报纸文章或科学论文。 此外,使用本机文档分类器对半结构化文档(图像或 Docx 文件)使用此格式。PDF |
每个文件一个文档 |
输入是一个或多个文件。文件中的每一行都是一个单独的输入文档。这种格式最适合简短的文档,例如短信或社交媒体帖子。 |
每行一个文档 |
每个文件一个文档
对于 one document per file
格式,每个文件代表一个输入文档。
每行一个文档
在 One document per line
格式中,每个文档都放在单独的行上,并且不使用标题。标签不包含在每行中(因为您还不知道文档的标签)。文件的每一行(单个文档的结尾)必须以换行符(LF、\ n)、回车符(CR、\ r)或两者结尾(CRLF,\ r\ n)。不要使用 UTF -8 行分隔符 (u+2028) 来结束一行。
以下示例显示了输入文件的格式。
Text of document 1 \n
Text of document 2 \n
Text of document 3 \n
Text of document 4 \n
对于任一格式,对文本文件使用 UTF -8 编码。准备好文件后,将其放入用于输入数据的 S3 存储桶中。
启动分类任务时,您需要为输入数据指定 Amazon S3 位置。URI必须与您正在调用的API终端节点位于同一区域。URI可以指向单个文件(例如使用 “每行一个文档” 方法),也可以将其作为数据文件集合的前缀。
例如,如果您使用,如果前缀是单个文件 URIS3://bucketName/prefix
,则 Amazon Comprehend 会使用该文件作为输入。如果有多个文件以该前缀开头,Amazon Comprehend 将使用所有文件作为输入。
授权 Amazon Comprehend 访问包含文档集合和输出文件的 S3 存储桶。有关更多信息,请参阅 异步操作所需的基于角色的权限。