Amazon Textract 的最佳实践

Amazon Textract 使用机器学习来像个人一样阅读文档。它从文档中提取文本、表格和表单。使用以下最佳实践从文档中获取最佳结果。

提供最佳输入文档

以下列出了可以优化输入文档以获得更好结果的几种方法。

确保您的文档文本使用 Amazon Textract 支持的语言。目前，Amazon Textract 支持英语、西班牙语、德语、意大利语、法语和葡萄牙语。
提供高质量的图像，理想情况下至少为 150 DPI。
如果您的文档已采用 Amazon Textract 支持的其中一种文件格式（PDF、TIFF、JPEG 和 PNG），请勿在将文档上传到 Amazon Textract 之前对文档进行转换或降样。

为了在从文档中的表格中提取文本时获得最佳效果，请确保：

从表中提取文本时，在以下情况下可能会看到不一致的结果：

我们建议使用文本检测作为解决方法。

您应该考虑 Amazon Textract API 操作返回的信心分数及其使用案例的敏感性。置信度得分是一个介于 0 与 100 之间的数字，用于表示给定预测的准确性。它可以帮助你就如何使用结果做出明智的决定。

在对检测错误（误报）敏感的应用程序中，强制实施最低置信度评分阈值。申请应放弃低于该阈值的结果，或者将情况标记为需要更高级别的人工审查。

最佳阈值取决于应用程序。出于存档目的，例如记录手写笔记，可能低至 50％。涉及财务决策的业务流程可能需要 90％或更高的阈值。

还可以考虑将人工评论纳入工作流程中。这对于敏感的应用程序尤其重要，例如涉及财务决策的业务流程。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

处理受限的呼叫和断开的连接

教程