Amazon Textract 的最佳實務 - Amazon Textract

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon Textract 的最佳實務

Amazon Textract 使用機器學習來閲讀文檔,就像個人一樣。它從文檔中提取文本、表格和表單。使用下列最佳實務,以取得文檔的最佳結果。

提供最佳輸入文檔

以下是優化輸入文檔以獲得更好結果的幾種方法的列表。

  • 確保您的文檔文本使用 Amazon Textract 支持的語言。目前,Amazon Textract 支援英文、西班牙文、德文、義大利文、法文和葡萄牙文。

  • 提供高質量的圖像,理想情況下至少為 150 DPI。

  • 如果您的文檔已採用 Amazon Textract 支持的文件格式之一(PDF、TIFF、JPEG 和 PNG),請不要在將文檔上傳到 Amazon Textract 之前對文檔進行轉換或縮小樣本。

為了在從文檔中的表中提取文本時獲得最佳結果,請確保:

  • 文檔中的表格在視覺上與頁面上的周圍元素分離。例如,表格不會疊加到圖像或複雜圖案上。

  • 表格中的文本是直立的。例如,文本不會相對於頁面上的其他文本進行旋轉。

從表中提取文本時,在以下情況下可能會看到不一致的結果:

  • 跨多個列的合併表格單元格。

  • 具有與同一表格的其他部分不同的單元格、行或列的表。

建議您使用文字偵測作為解決方法。

使用可信度分數

您應該考慮 Amazon Textract API 操作返回的置信度分數及其使用案例的敏感性。可信度分數是介於 0 到 100 之間的數字,表示給定預測正確性的概率。它可以幫助您就如何使用結果做出明智的決策。

在對檢測錯誤(誤報)敏感的應用程序中,強制執行最小置信度閾值。應用程序應該放棄低於該閾值的結果,或者將需要更高級別的人工審查的情況標記為情況。

最佳閾值取決於應用程式。對於存檔目的,例如記錄手寫筆記,它可能低至 50%。涉及財務決策的業務流程可能需要 90% 或更高的閾值。

考慮使用人工檢索

還可以考慮將人工審核納入工作流程。這對敏感應用程序尤其重要,例如涉及財務決策的業務流程。