自定义实体识别 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

自定义实体识别

自定义实体识别可帮助您识别不在预设通用实体类型中的特定新实体类型,从而扩展了 Amazon Comprehend 的功能。这意味着您可以分析文档并提取符合您特定需求的实体,例如产品代码或业务特定实体。

自己构建精确的自定义实体识别器可能是一个复杂的过程,需要准备大量手动注释的训练文档,并选择正确的算法和参数进行模型训练。Amazon Comprehend 通过提供自动注释和模型开发来创建自定义实体识别模型,从而帮助降低复杂性。

与使用字符串匹配或正则表达式从文档中提取实体相比,创建自定义实体识别模型是一种更有效的方法。例如,要提取文档中的 ENGINEER 姓名,就很难枚举所有可能的名称。此外,如果没有上下文,很难区分 ENGINEER 姓名和 ANALYST 姓名。自定义实体识别模型可以了解这些名称可能出现的上下文。此外,字符串匹配不会检测到有错别字或遵循新命名约定的实体,而使用自定义模型可以做到这一点。

您可以通过两种方法来创建自定义模型:

  1. 注释:提供包含带注释的实体的数据集,用于模型训练。

  2. 实体列表(仅限纯文本):提供实体列表及其类型标签(例如,PRODUCT_CODES 以及一组包含用于模型训练的这些实体的无注释文档)。

当您使用带注释的 PDF 文件创建自定义实体识别器时,您可以使用具有多种输入文件格式的识别器:纯文本、图像文件(JPG、PNG、TIFF)、PDF 文件和 Word 文档,无需预处理或拼合文档。Amazon Comprehend 不支持对图像文件或 Word 文档进行注释。

注意

使用带注释的 PDF 文件的自定义实体识别器仅支持英文文档。

您一次最多可以在 25 个自定义实体上训练模型。有关更多详细信息,请参阅指南和配额页面

训练完模型后,您可以使用该模型进行实时实体检测和实体检测作业。