训练自定义分类器(控制台) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练自定义分类器(控制台)

您可以使用控制台创建和训练自定义分类器,然后使用自定义分类器来分析您的文档。

要训练自定义分类器,您需要一组训练文档。您使用您希望文档分类器识别的类别对这些文档进行标注。有关准备训练文档的信息,请参阅 准备分类器训练数据

创建和训练文档分类器模型
  1. 登录 AWS Management Console 并打开亚马逊 Comprehend 控制台,网址为 https://console.aws.amazon.com/comprehend/

  2. 从左侧菜单中选择自定义,然后选择自定义分类

  3. 选择创建新模型

  4. 模型设置下,输入分类器的模型名称。该名称必须在您的账户和当前区域内唯一。

    (可选)输入版本名称。该名称必须在您的账户和当前区域内唯一。

  5. 选择训练文档的语言。要查看分类器支持的语言,请参阅 训练分类模型

  6. (可选)如果要在 Amazon Comprehend 处理您的训练作业时对存储卷中的数据进行加密,请选择分类器加密。然后选择是使用与您的当前账户关联的 KMS 密钥,还是使用其他账户中的密钥。

    • 如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥 ID。

    • 如果您使用与其他账户关联的密钥,请在 KMS 密钥 ARN 下输入密钥 ID 的 ARN。

    注意

    有关创建和使用 KMS 密钥及相关加密的更多信息,请参阅 AWS Key Management Service (AWS KMS)

  7. 数据规范下,选择要使用的训练模型类型

    • 纯文本文档:选择此选项可创建纯文本模型。使用纯文本文档训练模型。

    • 原生文档:选择此选项可创建原生文档模型。使用原生文档(PDF、Word、图像)训练模型。

  8. 选择训练数据的数据格式。有关数据格式的信息,请参阅 分类器训练文件格式

    • CSV 文件:如果您的训练数据使用 CSV 文件格式,请选择此选项。

    • 增强清单:如果您使用 Ground Truth 为训练数据创建增强清单文件,请选择此选项。如果您选择纯文本文档作为训练模型类型,则可以使用此格式。

  9. 选择要使用的分类器模式

    • 单标签模式:如果您为文档分配的类别是互斥的,并且您正在训练分类器为每个文档分配一个标签,请选择此模式。在 Amazon Comprehend API 中,单标签模式被称为多类模式。

    • 多标签模式:如果可以将多个类别同时应用于一个文档,并且您正在训练分类器为每个文档分配一个或多个标签,则选择此模式。

  10. 如果您选择多标签模式,则可以选择标签分隔符。当训练文档有多个类时,使用此分隔符分隔标签。默认分隔符是管道字符。

  11. (可选)如果您选择增强清单作为数据格式,则最多可以输入 5 个增强清单文件。每个增强的清单文件都包含一个训练数据集或一个测试数据集。您必须提供至少一个训练数据集。测试数据集是可选的。使用以下步骤配置增强清单文件:

    1. 训练和测试数据集下,展开输入位置面板。

    2. 数据集类型中,选择训练数据测试数据

    3. 对于 G SageMaker round Truth 增强清单文件 S3 的位置,请输入包含清单文件的 Amazon S3 存储桶的位置,或者选择浏览 S3 导航到该存储桶。用于获取训练作业访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。

    4. 属性名称中,输入包含您的注释的属性的名称。如果文件包含来自多个链式标注任务的注释,请为每个作业添加一个属性。

    5. 要添加其他输入位置,请选择添加输入位置,然后配置下一个位置。

  12. (可选)如果您选择 CSV 文件作为数据格式,请使用以下步骤配置训练数据集和可选测试数据集:

    1. 训练数据集下,输入包含您的训练数据 CSV 文件的 Amazon S3 存储桶的位置,或者选择浏览 S3 导航到该存储桶。用于获取训练作业访问权限的 IAM 角色必须具有 S3 存储桶的读取权限。

      (可选)如果您选择原生文档作为训练模型类型,则还需要提供包含训练示例文件的 Amazon S3 文件夹的 URL。

    2. 测试数据集下,选择是否为 Amazon Comprehend 提供额外数据以测试经过训练的模型。

      • 自动分割:自动分割会自动选择 10% 的训练数据作为测试数据保留。

      • (可选)客户提供:在 Amazon S3 中输入测试数据 CSV 文件的 URL。您也可以导航到其在 Amazon S3 中的位置,然后选择选择文件夹

        (可选)如果您选择原生文档作为训练模型类型,则还需要提供包含测试文件的 Amazon S3 文件夹的 URL。

  13. (可选)对于文档读取模式,您可以覆盖默认的文本提取操作。纯文本模型不需要此选项,因为它适用于扫描文档的文本提取。有关更多信息,请参阅 设置文本提取选项

  14. (纯文本模型可选)对于输出数据,请输入 Amazon S3 存储桶的位置以保存训练输出数据,例如混淆矩阵。有关更多信息,请参阅 混淆矩阵

    (可选)如果您选择加密训练作业的输出结果,请选择加密。然后选择是使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的密钥。

    • 如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥别名。

    • 如果您使用与其他账户关联的密钥,请在 KMS 密钥 ID 下输入密钥别名或 ID 的 ARN。

  15. 对于 IAM 角色,选择选择现有 IAM 角色,然后选择对包含您的培训文档的 S3 存储桶具有读取权限的现有 IAM 角色。该角色必须具有开头的信任策略 comprehend.amazonaws.com 才有效。

    如果您还没有具有这些权限的 IAM 角色,请选择创建 IAM 角色来创建一个。选择授予该角色的访问权限,然后选择一个名称后缀以区分该角色与您账户中的 IAM 角色。

    注意

    对于加密的输入文档,所使用的 IAM 角色也必须具有 kms:Decrypt 权限。有关更多信息,请参阅 使用 KMS 加密所需的权限

  16. (可选)要将您的资源从 VPC 启动到 Amazon Comprehend,请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。

    1. 在子网下选择子网。选择第一个子网后,您还可以选择其他子网。

    2. 安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。

    注意

    当您在分类作业中使用 VPC 时,DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

  17. (可选)要向自定义分类器添加标签,请在标签下输入键值对。选择添加标签。要在创建分类器之前删除这对,请选择删除标签。有关更多信息,请参阅 标记您的资源

  18. 选择创建

控制台显示分类器页面。新的分类器会出现在列表中,显示 Submitted 为其状态。当分类器开始处理训练文档时,状态会更改为 Training。当分类器准备就绪时,状态会更改为 TrainedTrained with warnings。如果状态为 TRAINED_WITH_WARNINGS,请查看 分类器训练输出 中的已跳过的文件文件夹。

如果 Amazon Comprehend 在创建或训练过程中遇到错误,则状态将更改为 In error。您可以在表中选择一个分类器作业,以获取有关该分类器的更多信息,包括任何错误消息。


    自定义分类器列表。