训练自定义识别器（控制台）

您可以使用 Amazon Comprehend 控制台创建自定义实体识别器。本节说明了如何创建和训练自定义实体识别器。

主题

要创建自定义实体识别器，请先提供一个用于训练模型的数据集。该数据集包括以下内容之一：一组带注释的文档或一组实体及其类型标签的列表，以及一组包含这些实体的文档。有关更多信息，请参阅自定义实体识别。

使用 CSV 文件训练自定义实体识别器

登录 AWS Management Console 并打开亚马逊 Comprehend 控制台，网址为 https://console.aws.amazon.com/comprehend/
从左侧菜单中选择自定义，然后选择自定义实体识别。
选择创建新模型。
为识别器命名。该名称在区域和账户中必须是唯一的。
选择语言。
在自定义实体类型下，输入您希望识别器在数据集中找到的自定义标签。

实体类型必须大写，如果由多个单词组成，则用下划线分隔单词。
选择添加类型。
如果要添加其他实体类型，请输入该类型，然后选择添加类型。如果要删除已添加的实体类型，请选择删除类型，然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。
要对训练作业加密，请选择识别器加密，然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的 KMS 密钥。
- 如果您使用的是与当前账户关联的密钥，请为 KMS 密钥 ID 选择密钥 ID。
- 如果您使用与其他账户关联的密钥，请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。
注意
有关创建和使用 KMS 密钥以及相关加密的更多信息，请参阅 AWS Key Management Service。
在数据规范下，选择训练文档的格式：
- CSV 文件：补充您的训练文档的 CSV 文件。CSV 文件包含有关您的训练模型将检测到的自定义实体的信息。所需的文件格式取决于您提供的是注释还是实体列表。
- 增强清单 — 由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。每一行都是一个完整的 JSON 对象，其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。
有关可用格式的更多信息以及示例，请参阅训练自定义实体识别器模型。
在训练类型下，选择要使用的训练类型：
- 使用注释与训练文档
- 使用实体列表与训练文档
如果选择注释，请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹，然后选择浏览 S3。

如果选择实体列表，请在 Amazon S3 中输入实体列表的 URL。您也可以导航到 Amazon S3 中实体列表所在的存储桶或文件夹，然后选择浏览 S3。
在 Amazon S3 中输入包含训练文档的输入数据集的网址。您也可以导航到 Amazon S3 中训练文档所在的存储桶或文件夹，然后选择选择文件夹。
在测试数据集下，选择您想要如何评估训练模型的性能-您可以对注释和实体列表训练类型执行此操作。
- 自动分割：自动分割会自动选择您提供的训练数据的 10% 用作测试数据
- （可选）客户提供：当您选择客户提供的时，您可以准确指定要使用的测试数据。
如果您选择客户提供的测试数据集，请在 Amazon S3 中输入注释文件的 URL。您也可以导航到 Amazon S3 中注释文件所在的存储桶或文件夹，然后选择选择文件夹。
在选择 IAM 角色部分中，选择一个现有 IAM 角色，或者创建一个新的 IAM 角色。
- 选择现有 IAM 角色：如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色，请选择此选项。
- 创建新的 IAM 角色：如果您要创建一个新的 IAM 角色，该角色具有适当的权限，让 Amazon Comprehend 可以访问输入和输出存储桶，请选择此选项。
  
  注意
  如果输入文档已加密，则所使用的 IAM 角色必须具有 kms:Decrypt 权限。有关更多信息，请参阅使用 KMS 加密所需的权限。
（可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。
1. 在子网下选择子网。选择第一个子网后，您还可以选择其他子网。
2. 在安全组下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
注意
当您在自定义实体识别任务中使用 VPC 时，DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。
（可选）若要向自定义实体识别器添加标签，请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对，请选择删除标签。
选择训练。

然后，新的识别器将出现在列表中，显示其状态。它将首先显示为 Submitted。然后，它将显示 Training 正在处理训练文档的分类器、Trained 准备就绪的分类器以及存在 In error 错误的分类器。您可以单击作业以获取有关识别器的更多信息，包括任何错误消息。

使用纯文本、PDF 或 Word 文档训练自定义实体识别器

登录 AWS Management Console 并打开 Amazon Comprehend 控制台。
从左侧菜单中选择自定义，然后选择自定义实体识别。
选择训练识别器。
为识别器命名。该名称在区域和账户中必须是唯一的。
选择语言。注意：如果您正在训练 PDF 或 Word 文档，则支持的语言为英语。
在自定义实体类型下，输入您希望识别器在数据集中找到的自定义标签。

实体类型必须大写，如果由多个单词组成，则用下划线分隔单词。
选择添加类型。
如果要添加其他实体类型，请输入该类型，然后选择添加类型。如果要删除已添加的实体类型，请选择删除类型，然后选择要从列表中删除的实体类型。最多可以列出 25 种实体类型。
要对训练作业加密，请选择识别器加密，然后选择是使用与当前账户关联的 KMS 密钥，还是使用来自其他账户的 KMS 密钥。
- 如果您使用的是与当前账户关联的密钥，请为 KMS 密钥 ID 选择密钥 ID。
- 如果您使用与其他账户关联的密钥，请在 KMS 密钥 ARN 中输入密钥 ID 的 ARN。
注意
有关创建和使用 KMS 密钥以及相关加密的更多信息，请参阅 AWS Key Management Service。
在训练数据下，选择增强清单作为数据格式：
- 增强清单 — 是由 Amazon G SageMaker round Truth 生成的带标签的数据集。该文件采用 JSON 行格式。文件中的每一行都是一个完整的 JSON 对象，其中包含一个训练文档及其标签。每个标签都对训练文档中的一个命名实体进行注释。您最多可以提供 5 个增强的清单文件。如果您使用 PDF 文档作为训练数据，则必须选择增强清单。您最多可以提供 5 个增强的清单文件。每个文件最多可命名 5 个属性作为训练数据。
有关可用格式的更多信息以及示例，请参阅训练自定义实体识别器模型。
选择训练模型类型。

如果您选择了纯文本文档，请在输入位置下输入 Amazon Tr SageMakerGround uth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹，然后选择选择文件夹。
在属性名称下，输入包含注释的属性的名称。如果文件包含来自多个链式标注任务的注释，请为每个作业添加一个属性。在这种情况下，每个属性都包含标注作业中的一组注释。注意：您最多可以为每个文件提供 5 个属性名称。
选择添加。
如果你在 “输入位置” 下选择了 PDF、Word 文档，请输入 Amazon G SageMaker round Truth 增强清单文件的 Amazon S3URL。您也可以导航到 Amazon S3 中增强清单文件所在的存储桶或文件夹，然后选择选择文件夹。
输入注释数据文件的 S3 前缀。这些是您标记的 PDF 文档。
输入源文档的 S3 前缀。这些是您提供给 Ground Truth 进行标注作业的原始 PDF 文档（数据对象）。
输入包含注释的属性名称。注意：您最多可以为每个文件提供 5 个属性名称。文件中任何您未指定的属性都将被忽略。
在 IAM 角色部分，选择一个现有 IAM 角色，或者创建一个新的 IAM 角色。
- 选择现有 IAM 角色：如果您已经拥有有权访问输入和输出 Amazon S3 存储桶的 IAM 角色，请选择此选项。
- 创建新的 IAM 角色：如果您要创建一个新的 IAM 角色，该角色具有适当的权限，让 Amazon Comprehend 可以访问输入和输出存储桶，请选择此选项。
  
  注意
  如果输入文档已加密，则所使用的 IAM 角色必须具有 kms:Decrypt 权限。有关更多信息，请参阅使用 KMS 加密所需的权限。
（可选）要将您的资源从 VPC 启动到 Amazon Comprehend，请在 VPC 下输入 VPC ID 或从下拉列表中选择 ID。
1. 在子网下选择子网。选择第一个子网后，您还可以选择其他子网。
2. 在安全组下，选择要使用的安全组（如果已指定）。选择第一个安全组后，您还可以选择其他安全组。
注意
当您在自定义实体识别任务中使用 VPC 时，DataAccessRole 用于创建和启动操作的用户必须拥有访问输入文档和输出存储桶的 VPC 的权限。
（可选）若要向自定义实体识别器添加标签，请在标签下输入键值对。选择添加标签。要在创建识别器之前删除这对，请选择删除标签。
选择训练。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

训练识别器模型

训练自定义识别器 (API)

训练自定义识别器（控制台）

主题

使用 CSV 文件训练自定义实体识别器

注意

注意

注意

使用纯文本、PDF 或 Word 文档训练自定义实体识别器

注意

注意

注意