训练自定义分类器 (API) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练自定义分类器 (API)

要创建和训练自定义分类器,请使用CreateDocumentClassifier操作。

您可以使用DescribeDocumentClassifier操作监控请求的进度。Status 字段转换到 TRAINED 后,您可以使用分类器对文档进行分类。如果状态为 TRAINED_WITH_WARNINGS,请从 CreateDocumentClassifier 操作查看 分类器训练输出 中已跳过的文件文件夹。

使用训练自定义分类 AWS Command Line Interface

以下示例展示如何将 CreateDocumentClassifier 操作、DescribeDocumentClassificationJob 操作和其他自定义分类器 API 与 AWS CLI一起使用。

此示例的格式适用于 Unix、Linux 和 macOS。对于 Windows,请将每行末尾的反斜杠 (\) Unix 行继续符替换为脱字号 (^)。

使用 create-document-classifier 操作创建纯文本自定义分类器。

aws comprehend create-document-classifier \ --region region \ --document-classifier-name testDelete \ --language-code en \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name \ --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess

要创建原生自定义分类器,请在 create-document-classifier 请求中提供以下其他参数。

  1. DocumentType:将值设置为 SEMI_STRUCTUD_DOCUMENT。

  2. 文档:用于存放训练文档(以及可选的测试文档)的 S3 位置。

  3. OutputDataConfig:提供输出文档的 S3 位置(以及可选的 KMS 密钥)。

  4. DocumentReaderConfig:文本提取设置的可选字段。

aws comprehend create-document-classifier \ --region region \ --document-classifier-name testDelete \ --language-code en \ --input-data-config S3Uri=s3://S3Bucket/docclass/file name \ DocumentType \ Documents \ --output-data-config S3Uri=s3://S3Bucket/docclass/file name \ --data-access-role-arn arn:aws:iam::account number:role/testFlywheelDataAccess

使用 DescribeDocumentClassifier 操作获取带有文档分类器 ARN 自定义分类器的信息。

aws comprehend describe-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/file name

使用 DeleteDocumentClassifier 操作删除自定义分类器。

aws comprehend delete-document-classifier \ --region region \ --document-classifier-arn arn:aws:comprehend:region:account number:document-classifier/testDelete

使用 ListDocumentClassifiers 操作列出账户中的所有自定义分类器。

aws comprehend list-document-classifiers --region region

使用适用于 Python 的 AWS SDK for Java 或 SDK

有关如何创建和训练自定义分类器的 SDK 示例,请参阅 CreateDocumentClassifier与 AWS SDK 或 CLI 配合使用