EntityRecognizerInputDataConfig - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

EntityRecognizerInputDataConfig

指定输入数据的格式和位置。

目录

Annotations

用于为您的培训文档添加注释的 CSV 文件的 S3 位置。

类型:EntityRecognizerAnnotations 对象

必需: 否

AugmentedManifests

为自定义模型提供训练数据的增强清单文件列表。增强的清单文件是由 Amazon 生成的带标签的数据集 SageMaker Ground Trut

如果设置此参数DataFormatAUGMENTED_MANIFEST.

类型: 数组AugmentedManifestsListItem对象

必需: 否

DataFormat

训练数据的格式:

  • COMPREHEND_CSV:CSV 文件,用于补充您的培训文档。CSV 文件包含有关您的训练模型将检测到的自定义实体的信息。所需的文件格式取决于您提供的是注释还是实体列表。

    如果使用此值,则必须使用以下任一方法提供 CSV 文件Annotations要么EntityList参数。您必须使用Documents参数。

  • AUGMENTED_MANIFEST:由亚马逊生成的带标签的数据集 SageMaker Ground Trut 此文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其标签。每个标签都标注训练文档中的一个命名实体。

    如果使用此值,则必须提供AugmentedManifests请求中的参数。

如果您不指定值,则亚马逊Comprehend 使用COMPREHEND_CSV默认值为。

类型: 字符串

有效值: COMPREHEND_CSV | AUGMENTED_MANIFEST

必需: 否

Documents

包含自定义实体识别器的训练文档的文件夹的 S3 位置。

如果设置此参数DataFormatCOMPREHEND_CSV.

类型:EntityRecognizerDocuments 对象

必需: 否

EntityList

CSV 文件的 S3 位置,该文件包含自定义实体识别器的实体列表。

类型:EntityRecognizerEntityList 对象

必需: 否

EntityTypes

Amazon Comprehend 用于训练自定义实体识别器的带标签的训练数据中的实体类型。任何未指定的实体类型都会被忽略。

一次最多可使用 25 种实体类型来训练实体识别器。实体类型不得包含以下无效字符:\ n(换行符)、\\ n(转义换行符)、\ r(回车符)、\\ r(转义回车)、\ t(制表符)、\\ t(转义制表符)、空格和、(逗号)。

类型: 数组EntityTypesListItem对象

必需: 是

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: