训练自定义分类器(控制台) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练自定义分类器(控制台)

您可以使用控制台创建和训练自定义分类器,然后使用自定义分类器分析文档。

要训练自定义分类器,您需要一组训练文档。您可以使用希望文档分类器识别的类别来标记这些文档。有关这些培训文档的更多信息,请参阅自定义分类.

创建和训练文档分类器

  1. 登录到AWS Management Console然后打开Amazon Comprehend

  2. 从左侧菜单中,选择 TOOMER。自定义然后选择自定义分类.

  3. 选择创建新模型.

  4. 为分类器提供一个名称。该名称在您的账户内和当前区域内必须是唯一的。

  5. 选择培训文档的语言。您可以使用任何可与 Amazon Comprehend 配合使用的语言来训练文档分类器。但是,只能使用一种语言训练分类器。要了解更多信息,请参阅Amazon Comprehend 支持的语言。

  6. (可选)如果要在处理训练作业时加密存储卷中的数据,请选择分类器加密然后选择是使用与当前账户关联的 KMS 密钥,还是使用其他账户中的密钥。

    • 如果您使用与当前账户关联的密钥,请选择 ID。KMS 密钥 ID.

    • 如果您使用与其他账户关联的密钥,请在下输入密钥 ID 的 ARN。KMS 密钥 ARN.

    注意

    有关创建和使用 KMS 密钥以及关联加密的更多信息,请参阅密钥管理服务 (KMS).

  7. UNTER数据规范,选择要使用的分类器模式。

    • 单标签模式:如果要分配给文档的类别是互斥的,并且您正在训练分类器为每个文档分配一个且只有一个标签,请选择此选项。

    • 多标签标识标签标签标签标签标签 如果多个类别可以同时应用于一个文档,并且您正在训练分类器为每个文档分配一个、多个、全部或不分配标签,请选择此选项。

  8. 如果你选择了多标签标签标签标签标签标签中,选择每行有多个标签时要用来分隔标签的字符分隔符标签的分隔符.

  9. UNTER数据格式,选择培训文档的格式:

    • CSV 文件— 一个两列的 CSV 文件,其中第一列提供标签,第二列提供文档。

    • 增强清单— 由亚马逊生成的带标签的数据集 SageMaker GGround Truth TRH 此文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其关联标签。

    有关这些格式的更多信息以及有关示例的更多信息,请参阅准备训练数据.

  10. UNTER训练数据集,输入包含您的培训文档的 Amazon S3 存储桶的位置,或者通过选择选择文件夹. 用于提供培训作业的 IAM 角色必须具有 S3 存储桶的读取权限。

  11. UNTER测试数据集选择您希望如何评估训练过的模型的性能-您可以对注释和实体列表训练类型执行此操作。

    • 自动拆分:Autosplit 会自动选择您提供的训练数据的 10% 作为测试数据

    • (可选)客户提供的:选择客户提供时,您可以准确指定要使用的测试数据。如果您选择客户提供的测试数据集,请在 Amazon S3 中输入注释文件的 URL。您还可以导航到 Amazon S3 中注解文件所在的存储桶或文件夹,然后选择选择文件夹.

  12. (可选)如果您希望 Amazon Comprehend 创建一个混淆矩阵来提供分类器在训练期间表现的指标,请输入 Amazon S3 存储桶的保存位置。有关更多信息,请参阅 Confusion

    (可选)如果您选择加密训练作业的输出结果,请选择加密然后选择使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的 KMS 密钥。

    • 如果您使用与当前账户关联的密钥,请选择 tee 的密钥别名KMS 密钥 ID.

    • 如果您使用与其他账户关联的密钥,请在下方输入密钥别名或 ID 的 ARNKMS 密钥 ID.

  13. 选择选择现有的 IAM 角色,然后选择对包含您的培训文档的 S3 存储桶具有读取权限的现有 IAM 角色。只有信任策略以 comprehend.amazonaws.com 开头的角色才有效。

    如果您还没有具备这些权限的 IAM 角色,请选择创建 IAM 角色来做一个。选择要授予此角色的访问权限,然后选择名称后缀以区分该角色和您账户中的 IAM 角色。

    注意

    如果输入文档已加密,则所使用的 IAM 角色还必须具有kms:Decrypt权限。有关更多信息,请参阅 使用 KMS 加密所需的权限

  14. (可选)要从 VPC 将您的资源启动到 Amazon Comprehend 中,请在下方输入 VPC IDVPC或者从下拉列表中选择 ID。

    1. 在下面选择子网子网. 选择第一个子网后,可以选择其他子网。

    2. UNTER安全组中,选择要使用的安全组(如果已指定)。选择第一个安全组后,您可以选择其他安全组。

    注意

    当您将 VPC 用于分类作业时,DataAccessRole用于创建和启动操作的用户必须具有访问输入文档和输出存储桶的 VPC 的权限。

  15. (可选)要将标签添加至自定义分类器,请在下输入键-值对标签. 选择 Add tag (添加标签)。要在创建分类器之前移除此对,请选择删除标签. 有关更多信息,请参阅 给您的 资源加标签

  16. 选择Create(创建)。

然后,新的分类器将出现在列表中,显示其状态。它将首先显示为Submitted. 然后它会显示Training对于正在处理训练文档的分类器,Trained对于已准备就绪的分类器,以及In error用于分类器,该分类器出现错误。您可以单击作业以获取有关分类器的更多信息,包括任何错误消息。


    自定义分类器列表。