CreateDocumentClassifier - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

CreateDocumentClassifier

创建可用于对文档进行分类的新文档分类器。要创建分类器,您需要提供一组标有要使用的类别的训练文档。训练分类器后,您可以使用它来将一组带标签的文档归入类别。有关更多信息,请参阅 。文件分类(在Comprehend 开发人员指南中)。

请求语法

{ "ClientRequestToken": "string", "DataAccessRoleArn": "string", "DocumentClassifierName": "string", "InputDataConfig": { "AugmentedManifests": [ { "AnnotationDataS3Uri": "string", "AttributeNames": [ "string" ], "DocumentType": "string", "S3Uri": "string", "SourceDocumentsS3Uri": "string", "Split": "string" } ], "DataFormat": "string", "LabelDelimiter": "string", "S3Uri": "string", "TestS3Uri": "string" }, "LanguageCode": "string", "Mode": "string", "ModelKmsKeyId": "string", "ModelPolicy": "string", "OutputDataConfig": { "KmsKeyId": "string", "S3Uri": "string" }, "Tags": [ { "Key": "string", "Value": "string" } ], "VersionName": "string", "VolumeKmsKeyId": "string", "VpcConfig": { "SecurityGroupIds": [ "string" ], "Subnets": [ "string" ] } }

请求参数

有关所有操作的通用参数的信息,请参阅常见参数.

请求接受采用 JSON 格式的以下数据。

ClientRequestToken

请求的唯一标识符。如果您未设置客户端请求令牌,Amazon Comprehend 会生成一个令牌。

类型: 字符串

长度约束束束: 最小长度为 1。最大长度为 64。

模式:^[a-zA-Z0-9-]+$

必需 否

DataAccessRoleArn

AWS Identity and Management (IAM) 角色的 Amazon 资源名称 (ARN),

类型: 字符串

长度约束束束: 最小长度为 20。长度上限为 2048。

模式:arn:aws(-[^:]+)?:iam::[0-9]{12}:role/.+

必需 是

DocumentClassifierName

文档分类器的名称。

类型: 字符串

长度约束束束: 长度上限为 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必需 是

InputDataConfig

指定作业的输入数据的格式和位置。

类型:DocumentClassifierInputDataConfig 对象

必需 是

LanguageCode

输入文档的语言。您可以指定以下任意一种 Amazon Comprehend t 支持的语言:德语(“de”)、英语(“en”)、西班牙语(“es”)、法语(“fr”)、意大利语(“it”)或葡萄牙语(“pt”)。所有文件必须使用相同的语言。

类型: 字符串

有效值: en | es | fr | de | it | pt

必需 是

Mode

指示训练分类器的模式。分类器可以在多类模式下进行训练,多类模式为每个文档标识一个且只有一个类,或者多标签模式,为每个文档标识一个或多个标签。在多标签模式下,单个文档的多个标签用分隔符分隔。标签之间的默认分隔符是竖线 (|)。

类型: 字符串

有效值: MULTI_CLASS | MULTI_LABEL

必需 否

ModelKmsKeyId

AWS Key Management Service (KMS) 密钥,AWS Key Management Service (K 这些区域有: ModelKmsKeyId 可以是以下任一格式:

  • KMS 密钥 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

  • KMS 密钥的 Amazon 资源名称 (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

类型: 字符串

长度约束束束: 长度上限为 2048。

模式:^\p{ASCII}+$

必需 否

ModelPolicy

附加到自定义文档分类器模型的基于资源的策略。您可以使用此策略允许另一个 AWS 账户导入您的自定义模型。

以不带换行符的 UTF-8 编码字符串形式输入的 JSON 正文提供您的策略。要提供有效的 JSON,请用双引号将属性名和值括起来。如果 JSON 正文也用双引号括起来,则必须对策略中的双引号进行转义:

"{\"attribute\": \"value\", \"attribute\": [\"value\"]}"

要避免转义引号,您可以使用单引号将策略括起来,并使用双引号将 JSON 名称和值括起来:

'{"attribute": "value", "attribute": ["value"]}'

类型: 字符串

长度约束束束: 最小长度为 1。长度上限为 200

模式:[\u0009\u000A\u000D\u0020-\u00FF]+

必需 否

OutputDataConfig

允许为自定义分类器作业添加输出结果配置参数。

类型:DocumentClassifierOutputDataConfig 对象

必需 否

Tags

要与正在创建的文档分类器关联的标签。标签是密钥值对,它作为元数据添加到 AAmazon Comprehend t 使用的资源中。例如,可以将以 “Sales” 作为密钥的标签添加到资源中,以指示销售部门使用该标签。

类型: 数组的Tag对象

必需 否

VersionName

为新创建的类元指定的版本名。版本名称最多可包含 25 允许字母数字字符、连字符 (-) 和下划线 (_)。版本名称在账户/AWS 区域中具有相同分类器名称的所有模型中必须是唯一的。

类型: 字符串

长度约束束束: 长度上限为 63。

模式:^[a-zA-Z0-9](-*[a-zA-Z0-9])*$

必需 否

VolumeKmsKeyId

AWS Key Management Service (KMS) 密钥,AWS Key ManagemAmazon Comprehend t Service (KMS) 密钥,AWS Key Management Service (KMS) 密钥。这些区域有: VolumeKmsKeyId 可以是以下任一格式:

  • KMS 密钥 ID:"1234abcd-12ab-34cd-56ef-1234567890ab"

  • KMS 密钥的 Amazon 资源名称 (ARN):"arn:aws:kms:us-west-2:111122223333:key/1234abcd-12ab-34cd-56ef-1234567890ab"

类型: 字符串

长度约束束束: 长度上限为 2048。

模式:^\p{ASCII}+$

必需 否

VpcConfig

包含您用于自定义分类器的资源的可选私有Virtual Private Cloud (VPC) 的配置参数。有关更多信息,请参阅 Amazon VPC

类型:VpcConfig 对象

必需 否

响应语法

{ "DocumentClassifierArn": "string" }

响应元素

如果此操作成功,则该服务将会发送回 HTTP 200 响应。

服务以 JSON 格式返回的以下数据。

DocumentClassifierArn

标识文档分类器的Amazon 资源名称 (ARN)。

类型: 字符串

长度约束束束: 长度上限为 256。

模式:arn:aws(-[^:]+)?:comprehend:[a-zA-Z0-9-]*:[0-9]{12}:document-classifier/[a-zA-Z0-9](-*[a-zA-Z0-9])*(/version/[a-zA-Z0-9](-*[a-zA-Z0-9])*)?

错误

有关所有操作常见错误的信息,请参阅常见错误.

InternalServerException

发生内部服务器错误。重试您的请求。

HTTP 状态代码:500

InvalidRequestException

该请求无效。

HTTP 状态代码:400

KmsKeyValidationException

无法验证输入的 KMS 客户管理密钥 (CMK)。验证密钥并重新输入。

HTTP 状态代码:400

ResourceInUseException

指定的资源名称已在使用中。使用其他名称,然后重发送您的请求。

HTTP 状态代码:400

ResourceLimitExceededException

已超过每个账户的最大资源数。检查资源,然后重发送您的请求。

HTTP 状态代码:400

TooManyRequestsException

请求数超过了限制。稍后重新提交您的请求。

HTTP 状态代码:400

TooManyTagsException

该请求包含的标签多于可以与资源关联的标签(每个资源 50 个标签)。标签的最大数量包括现有标签和当前请求中包含的标签。

HTTP 状态代码:400

UnsupportedLanguageException

Amazon Comprehend t 无法处理输入文本的语言。对于自定义实体识别 API,仅接受英语、西班牙语、法语、意大利语、德语或葡萄牙语。有关受支持的语言的列表,支持的语言(在Comprehend 开发人员指南中)。

HTTP 状态代码:400

另请参阅

有关在特定语言的 AWS 软件开发工具包中使用此 API 的更多信息,请参阅以下内容: