DocumentClassifierInputDataConfig - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

DocumentClassifierInputDataConfig

用于训练文档分类器的输入属性。

有关如何格式化输入文件的详细信息,请参阅准备训练数据(在开发人员指南中)。

目录

AugmentedManifests

为自定义模型提供训练数据的增强清单文件列表。增强的清单文件是由 Amazon 生成的带标签的数据集 SageMaker GGround Truth T

如果为设置,则此参数是必需的DataFormatAUGMENTED_MANIFEST.

类型: 数组AugmentedManifestsListItem对象

必需: 否

DataFormat

训练数据的格式:

  • COMPREHEND_CSV:两列的 CSV 文件,其中第一列提供标签,第二列提供文档。如果使用此值,则必须提供S3Uri请求中的参数。

  • AUGMENTED_MANIFEST:由亚马逊生成的带标签的数据集 SageMaker GGround Truth T 此文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象,其中包含训练文档及其关联的标记。

    如果使用此值,则必须提供AugmentedManifests请求中的参数。

如果您没有指定值,则亚马逊Compehend 使用COMPREHEND_CSV默认值为。

类型: 字符串

有效值: COMPREHEND_CSV | AUGMENTED_MANIFEST

必需: 否

LabelDelimiter

指示用于分隔每个标签以训练多标签分类符的分隔符。标签之间的默认分隔符是竖线 (|)。您可以使用其他字符作为分隔符(如果它是允许的字符),方法是在标签的分隔符下指定该字符。如果培训文档使用的分隔符不是默认分隔符或您指定的分隔符,则该行上的标签将被组合成一个唯一的标签,例如 LABELLABELLABEL。

类型: 字符串

长度约束:固定长度为 1。

模式:^[ ~!@#$%^*\-_+=|\\:;\t>?/]$

必需: 否

S3Uri

输入数据的 Amazon S3 URI。S3 存储桶必须与您要调用的 API 终端节点位于同一区域。URI 可以指向单个输入文件,也可以为一组输入文件提供前缀。

例如,如果你使用 URIS3://bucketName/prefix,如果前缀是单个文件,则 Amazon Comprehend 将使用该文件作为输入。如果有多个文件以前缀开头,则 Amazon Comprehend 会将它们全部用作输入。

如果为设置,则此参数是必需的DataFormatCOMPREHEND_CSV.

类型: 字符串

长度约束:长度上限为 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必需: 否

TestS3Uri

这指定实体识别器的测试注解所在的 Amazon S3 位置。URI 必须与您要调用的 API 终端节点位于相同 AWS 区域中。

类型: 字符串

长度约束:长度上限为 1024。

模式:s3://[a-z0-9][\.\-a-z0-9]{1,61}[a-z0-9](/.*)?

必需: 否

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: