注释 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

注释

注释通过将自定义实体类型与它们在训练文档中出现的位置相关联来标记上下文中的实体。

您可以将训练数据作为 CSV 文件提供,该文件是来自的增强清单文件 SageMakerGround Truth 或 PDF。

注释最佳实践

在使用注释时,要获得最佳结果,需要考虑许多因素,包括:

  • 谨慎注释您的数据,并确认每次提及该实体时都要注释。不精确的注释可能导致结果不佳。

  • 输入数据不应包含重复项,比如要注释的 PDF 的副本。重复样本的存在可能会导致测试集污染,并可能对训练过程、模型指标和模型行为产生负面影响。

  • 确保您的所有文档都有注释,并且没有注释的文档是由于缺少合法实体,而不是疏忽所致。例如,如果你有一份文件说 “J Doe 担任工程师已有 14 年了”,那么你还应该为 “J Doe” 和 “John Doe” 提供注释。不这样做会混淆模型,并可能导致模型无法将 “J Doe” 识别为工程师。这应该在同一个文档内和各个文档中保持一致。

  • 通常,更多的注释会带来更好的结果。

  • 你可以使用训练模型最小人数文档和注释,但添加数据通常会改善模型。我们建议将带注释的数据量增加 10%,以提高模型的准确性。您可以对测试数据集运行推理,该数据集保持不变,并且可以通过不同的模型版本进行测试。然后,您可以比较后续模型版本的指标。

  • 尽可能提供与实际用例相似的文档。应避免使用具有重复模式的合成数据。输入数据应尽可能多样化,以避免过度拟合,并帮助基础模型更好地概括真实示例。

  • 重要的是,文件应在字数方面多样化。例如,如果训练数据中的所有文档都很短,则生成的模型可能难以预测较长文档中的实体。

  • 尝试给出与实际检测自定义实体(推理时间)时预期使用的相同数据分布进行训练。例如,在推理时,如果您希望向我们发送的文档中没有实体,那么这也应该是您的训练文档集的一部分。

有关更多建议,请参阅提高自定义实体识别器性能.