训练自定义识别器(控制台) - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

训练自定义识别器(控制台)

您可以使用 Amazon Comprehend 控制台创建自定义实体识别器。本节说明了如何创建和训练自定义实体识别器。

主题

    要创建自定义实体识别器,请先提供一个用于训练模型的数据集。该数据集包括以下内容之一:一组带注释的文档或一组实体及其类型标签的列表,以及一组包含这些实体的文档。有关更多信息,请参阅 自定义实体识别

    使用 CSV 文件训练自定义实体识别器
    1. 登录 AWS Management Console 并打开 Amazon Comprehend 控制台,网址:https://console.aws.amazon.com/comprehend/

    2. 从左侧菜单中选择自定义,然后选择自定义实体识别

    3. 选择创建新模型

    4. 为识别器命名。该名称在区域和账户中必须是唯一的。

    5. 选择语言。

    6. 自定义实体类型下,输入您希望识别器在数据集中找到的自定义标签。

      实体类型必须大写,如果由多个单词组成,则用下划线分隔单词。

    7. 选择添加类型

    8. 如果要添加其他实体类型,请输入该类型,然后选择添加类型。如果要删除已添加的实体类型,请选择删除类型,然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。

    9. 要对训练作业加密,请选择识别器加密,然后选择是使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的 KMS 密钥。

      • 如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥 ID。

      • 如果您使用与其他账户关联的密钥,请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。

      注意

      有关创建和使用 KMS 密钥以及相关加密的更多信息,请参阅 AWS Key Management Service

    10. 数据规范下,选择训练文档的格式:

      • CSV 文件:补充您的训练文档的 CSV 文件。CSV 文件包含有关您的训练模型将检测到的自定义实体的信息。所需的文件格式取决于您提供的是注释还是实体列表。

      • 增强清单 — 由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。

      有关可用格式的更多信息以及示例,请参阅 训练自定义实体识别器模型

    11. 训练类型下,选择要使用的训练类型:

      • 使用注释与训练文档

      • 使用实体列表与训练文档

      如果选择注释,请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹,然后选择浏览 S3

      如果选择实体列表,请在 Amazon S3 中输入实体列表的 URL。您也可以导航到 Amazon S3 中实体列表所在的存储桶或文件夹,然后选择浏览 S3

    12. 在 Amazon S3 中输入包含训练文档的输入数据集的网址。您也可以导航到 Amazon S3 中训练文档所在的存储桶或文件夹,然后选择选择文件夹

    13. 测试数据集下,选择您想要如何评估训练模型的性能-您可以对注释和实体列表训练类型执行此操作。

      • 自动分割:自动分割会自动选择您提供的训练数据的 10% 用作测试数据

      • (可选)客户提供:当您选择客户提供的时,您可以准确指定要使用的测试数据。

    14. 如果您选择客户提供的测试数据集,请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹,然后选择选择文件夹

    15. 选择 IAM 角色部分中,选择一个现有 IAM 角色,或者创建一个新的 IAM 角色。

      • 选择现有 IAM 角色:如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色,请选择此选项。

      • 创建新的 IAM 角色:如果您要创建一个新的 IAM 角色,该角色具有适当的权限,让 Amazon Comprehend 可以访问输入和输出存储桶,请选择此选项。

        注意

        如果输入文档已加密,则所使用的 IAM 角色必须具有 kms:Decrypt 权限。有关更多信息,请参阅 使用 KMS 加密所需的权限

    16. (可选)要将您的资源从 VPC 启动到 Amazon Comprehend,请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。

      1. 子网下选择子网。选择第一个子网后,您还可以选择其他子网。

      2. 安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。

      注意

      当您在自定义实体识别任务中使用 VPC 时,DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

    17. (可选)若要向自定义实体识别器添加标签,请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对,请选择删除标签

    18. 选择训练

    然后,新的识别器将出现在列表中,显示其状态。它将首先显示为 Submitted。然后,它将显示 Training 正在处理训练文档的分类器、Trained 准备就绪的分类器以及存在 In error 错误的分类器。您可以单击作业以获取有关识别器的更多信息,包括任何错误消息。

    使用纯文本、PDF 或 Word 文档训练自定义实体识别器
    1. 登录 AWS Management Console 并打开 Amazon Comprehend 控制台。

    2. 从左侧菜单中选择自定义,然后选择自定义实体识别

    3. 选择训练识别器

    4. 为识别器命名。该名称在区域和账户中必须是唯一的。

    5. 选择语言。注意:如果您正在训练 PDF 或 Word 文档,则支持的语言为英语。

    6. 自定义实体类型下,输入您希望识别器在数据集中找到的自定义标签。

      实体类型必须大写,如果由多个单词组成,则用下划线分隔单词。

    7. 选择添加类型

    8. 如果要添加其他实体类型,请输入该类型,然后选择添加类型。如果要删除已添加的实体类型,请选择删除类型,然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。

    9. 要对训练作业加密,请选择识别器加密,然后选择是使用与当前账户关联的 KMS 密钥,还是使用来自其他账户的 KMS 密钥。

      • 如果您使用的是与当前账户关联的密钥,请为 KMS 密钥 ID 选择密钥 ID。

      • 如果您使用与其他账户关联的密钥,请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。

      注意

      有关创建和使用 KMS 密钥以及相关加密的更多信息,请参阅 AWS Key Management Service

    10. 训练数据下,选择增强清单作为数据格式:

      • 增强清单 — 是由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。文件中的每一行都是一个完整的 JSON 对象,其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。如果您使用 PDF 文档作为训练数据,则必须选择增强清单。您最多可以提供 5 个增强的清单文件。每个文件最多可命名 5 个属性作为训练数据。

      有关可用格式的更多信息以及示例,请参阅 训练自定义实体识别器模型

    11. 选择训练模型类型。

      如果您选择了纯文本文档,请在 “输入位置” 下输入 Amazon Tr SageMakerGround uth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹,然后选择选择文件夹

    12. 属性名称下,输入包含注释的属性的名称。如果文件包含来自多个链式标注任务的注释,请为每个作业添加一个属性。在这种情况下,每个属性都包含标注作业中的一组注释。注意:您最多可以为每个文件提供 5 个属性名称。

    13. 选择添加

    14. 如果你在 “输入位置” 下选择了 PDF、Word 文档,请输入 Amazon G SageMaker round Truth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹,然后选择选择文件夹

    15. 输入注释数据文件的 S3 前缀。这些是您标注的 PDF 文档。

    16. 输入文档的 S3 前缀。这些是您提供给 Ground Truth 进行标注作业的原始 PDF 文档(数据对象)。

    17. 输入包含注释的属性名称。注意:您最多可以为每个文件提供 5 个属性名称。文件中任何您未指定的属性都将被忽略。

    18. 在 IAM 角色部分,选择一个现有 IAM 角色,或者创建一个新的 IAM 角色。

      • 选择现有 IAM 角色:如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色,请选择此选项。

      • 创建新的 IAM 角色:如果您要创建一个新的 IAM 角色,该角色具有适当的权限,让 Amazon Comprehend 可以访问输入和输出存储桶,请选择此选项。

        注意

        如果输入文档已加密,则所使用的 IAM 角色必须具有 kms:Decrypt 权限。有关更多信息,请参阅 使用 KMS 加密所需的权限

    19. (可选)要将您的资源从 VPC 启动到 Amazon Comprehend,请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。

      1. 子网下选择子网。选择第一个子网后,您还可以选择其他子网。

      2. 安全组下,选择要使用的安全组(如果已指定)。选择第一个安全组后,您还可以选择其他安全组。

      注意

      当您在自定义实体识别任务中使用 VPC 时,DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。

    20. (可选)若要向自定义实体识别器添加标签,请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对,请选择删除标签

    21. 选择训练

    然后,新的识别器将出现在列表中,显示其状态。它将首先显示为 Submitted。然后,它将显示 Training 正在处理训练文档的分类器、Trained 准备就绪的分类器以及存在 In error 错误的分类器。您可以单击作业以获取有关识别器的更多信息,包括任何错误消息。