运行自定义识别器模型 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

运行自定义识别器模型

训练自定义识别器模型后,您可以运行实时或异步的自定义实体识别。您需要创建端点才能使用自定义模型运行实时分析。

开始前的准备工作

您需要一个自定义实体识别模型(也称为识别器),然后才能检测到自定义实体。使用纯文本注释训练的识别器仅支持纯文本文档的实体检测。使用 PDF 文档批注训练的识别器支持纯文本文档、图像、PDF 文件和 Word 文档的实体检测。

有关这些模型的更多信息,请参阅训练识别器模型.

图像文件的最佳实践

要分析图像文件以进行自定义实体识别,请遵循以下准则以获得最佳结果:

  • 提供高质量的图像,理想情况下至少为 150 DPI。

  • 如果输入文档已经是受支持的文件格式之一(图像为 TIFF、JPEG 或 PNG),请不要在将文档上传到 Amazon S3 之前对其进行转换或缩减采样。

为了在从文档的表格中提取文本时获得最佳结果,请确保:

  • 文档中的表格在视觉上与页面上的周围元素分开。例如,表格不会叠加到图像或复杂图案上。

  • 表中的文本是直立的。例如,文本不会相对于页面上的其他文本进行旋转。

从表中提取文本时,在以下情况下可能会看到不一致的结果:

  • 合并的表格单元格跨越多列。

  • 表的单元格、行或列与同一表的其他部分不同。