Amazon Textract 的最佳实践 - Amazon Textract

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Amazon Textract 的最佳实践

Amazon Textract 使用机器学习来像个人一样阅读文档。它从文档中提取文本、表格和表单。使用以下最佳实践从文档中获取最佳结果。

提供最佳输入文档

以下列出了可以优化输入文档以获得更好结果的几种方法。

  • 确保您的文档文本使用 Amazon Textract 支持的语言。目前,Amazon Textract 支持英语、西班牙语、德语、意大利语、法语和葡萄牙语。

  • 提供高质量的图像,理想情况下至少为 150 DPI。

  • 如果您的文档已采用 Amazon Textract 支持的其中一种文件格式(PDF、TIFF、JPEG 和 PNG),请勿在将文档上传到 Amazon Textract 之前对文档进行转换或降样。

为了在从文档中的表格中提取文本时获得最佳效果,请确保:

  • 文档中的表格在视觉上与页面上的周围元素分开。例如,表格不会叠加到图像或复杂模式上。

  • 表格中的文字是直立的。例如,文本不会相对于页面上的其他文本进行旋转。

从表中提取文本时,在以下情况下可能会看到不一致的结果:

  • 合并的跨越多列的表格单元格。

  • 单元格、行或列与同一表的其他部分不同的表格。

我们建议使用文本检测作为解决方法。

使用置信度得分

您应该考虑 Amazon Textract API 操作返回的信心分数及其使用案例的敏感性。置信度得分是一个介于 0 与 100 之间的数字,用于表示给定预测的准确性。它可以帮助你就如何使用结果做出明智的决定。

在对检测错误(误报)敏感的应用程序中,强制实施最低置信度评分阈值。申请应放弃低于该阈值的结果,或者将情况标记为需要更高级别的人工审查。

最佳阈值取决于应用程序。出于存档目的,例如记录手写笔记,可能低至 50%。涉及财务决策的业务流程可能需要 90% 或更高的阈值。

考虑使用人工审核

还可以考虑将人工评论纳入工作流程中。这对于敏感的应用程序尤其重要,例如涉及财务决策的业务流程。