训练自定义分类器（控制台）

您可以使用控制台创建和训练自定义分类器，然后使用自定义分类器来分析您的文档。

要训练自定义分类器，您需要一组训练文档。您使用您希望文档分类器识别的类别对这些文档进行标注。有关准备训练文档的信息，请参阅准备分类器训练数据。

创建和训练文档分类器模型

登录 AWS Management Console 并打开亚马逊 Comprehend 控制台，网址为 https://console.aws.amazon.com/comprehend/
从左侧菜单中选择自定义，然后选择自定义分类。
选择创建新模型。
在模型设置下，输入分类器的模型名称。该名称必须在您的账户和当前区域内唯一。

（可选）输入版本名称。该名称必须在您的账户和当前区域内唯一。
选择训练文档的语言。要查看分类器支持的语言，请参阅训练分类模型。
（可选）如果要在 Amazon Comprehend 处理您的训练任务时对存储卷中的数据进行加密，请选择分类器加密。然后选择是使用与您的当前账户关联的 KMS 密钥，还是使用其他账户中的密钥。
- 如果您使用的是与当前账户关联的密钥，请为 KMS 密钥 ID 选择密钥 ID。
- 如果您使用与其他账户关联的密钥，请在 KMS 密钥 ARN 下输入密钥 ID 的 ARN。
注意
有关创建和使用 KMS 密钥及相关加密的更多信息，请参阅 AWS Key Management Service (AWS KMS)。
在数据规范下，选择要使用的训练模型类型。
- 纯文本文档：选择此选项可创建纯文本模型。使用纯文本文档训练模型。
- 原生文档：选择此选项可创建原生文档模型。使用原生文档（PDF、Word、图像）训练模型。
选择训练数据的数据格式。有关数据格式的信息，请参阅分类器训练文件格式。
- CSV 文件：如果您的训练数据使用 CSV 文件格式，请选择此选项。
- 增强清单：如果您使用 Ground Truth 为训练数据创建增强清单文件，请选择此选项。如果您选择纯文本文档作为训练模型类型，则可以使用此格式。
选择要使用的分类器模式。
- 单标签模式：如果您为文档分配的类别是互斥的，并且您正在训练分类器为每个文档分配一个标签，请选择此模式。在 Amazon Comprehend API 中，单标签模式被称为多类模式。
- 多标签模式：如果可以将多个类别同时应用于一个文档，并且您正在训练分类器为每个文档分配一个或多个标签，则选择此模式。
如果您选择多标签模式，则可以选择标签分隔符。当训练文档有多个类时，使用此分隔符分隔标签。默认分隔符是管道字符。
（可选）如果您选择增强清单作为数据格式，则最多可以输入 5 个增强清单文件。每个增强的清单文件都包含一个训练数据集或一个测试数据集。您必须提供至少一个训练数据集。测试数据集是可选的。使用以下步骤配置增强清单文件：
1. 在训练和测试数据集下，展开输入位置面板。
2. 在数据集类型中，选择训练数据或测试数据。
3. 对于 SageMaker AI Ground Truth 增强清单文件 S3 的位置，请输入包含清单文件的 Amazon S3 存储桶的位置，或者选择浏览 S3 导航到该存储桶。用于获取训练任务访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。
4. 在属性名称中，输入包含您的注释的属性的名称。如果文件包含来自多个链式标注任务的注释，请为每个任务添加一个属性。
5. 要添加其他输入位置，请选择添加输入位置，然后配置下一个位置。
（可选）如果您选择 CSV 文件作为数据格式，请使用以下步骤配置训练数据集和可选测试数据集：
1. 在训练数据集下，输入包含您的训练数据 CSV 文件的 Amazon S3 存储桶的位置，或者选择浏览 S3 导航到该存储桶。用于获取训练任务访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。
  
  （可选）如果您选择原生文档作为训练模型类型，则还需要提供包含训练示例文件的 Amazon S3 文件夹的 URL。
2. 在测试数据集下，选择是否为 Amazon Comprehend 提供额外数据以测试经过训练的模型。
  - 自动分割：自动分割会自动选择 10% 的训练数据作为测试数据保留。
  - （可选）客户提供：在 Amazon S3 中输入测试数据 CSV 文件的 URL。您也可以导航到其在 Amazon S3 中的位置，然后选择选择文件夹。
    
    （可选）如果您选择原生文档作为训练模型类型，则还需要提供包含测试文件的 Amazon S3 文件夹的 URL。
（可选）对于文档读取模式，您可以覆盖默认的文本提取操作。纯文本模型不需要此选项，因为它适用于扫描文档的文本提取。有关更多信息，请参阅设置文本提取选项。
（纯文本模型可选）对于输出数据，请输入 Amazon S3 存储桶的位置以保存训练输出数据，例如混淆矩阵。有关更多信息，请参阅混淆矩阵。

（可选）如果您选择加密训练任务的输出结果，请选择加密。然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的密钥。
- 如果您使用的是与当前账户关联的密钥，请为 KMS 密钥 ID 选择密钥别名。
- 如果您使用与其他账户关联的密钥，请在 KMS 密钥 ID 下输入密钥别名或 ID 的 ARN。
对于 IAM 角色，选择选择现有 IAM 角色，然后选择对包含您的培训文档的 S3 存储桶具有读取权限的现有 IAM 角色。该角色必须具有开头的信任策略 comprehend.amazonaws.com 才有效。

如果您还没有具有这些权限的 IAM 角色，请选择创建 IAM 角色来创建一个。选择授予该角色的访问权限，然后选择一个名称后缀以区分该角色与您账户中的 IAM 角色。

注意
对于加密的输入文档，所使用的 IAM 角色也必须具有 kms:Decrypt 权限。有关更多信息，请参阅使用 KMS 加密所需的权限。
（可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。
1. 在子网下选择子网。选择第一个子网后，您还可以选择其他子网。
2. 在安全组下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
注意
当您在分类任务中使用 VPC 时，DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。
（可选）要向自定义分类器添加标签，请在标签下输入键值对。选择添加标签。要在创建分类器之前删除这对，请选择删除标签。有关更多信息，请参阅标记您的资源。
选择创建。

控制台显示分类器页面。新的分类器会出现在列表中，显示 Submitted 为其状态。当分类器开始处理训练文档时，状态会更改为 Training。当分类器准备就绪时，状态会更改为 Trained 或 Trained with warnings。如果状态为 TRAINED_WITH_WARNINGS，请查看分类器训练输出中的已跳过的文件文件夹。

如果 Amazon Comprehend 在创建或训练过程中遇到错误，则状态将更改为 In error。您可以在表中选择一个分类器任务，以获取有关该分类器的更多信息，包括任何错误消息。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

训练分类模型

训练自定义分类器 (API)

训练自定义分类器（控制台）

创建和训练文档分类器模型

注意

注意

注意