Amazon Textract 的最佳實務

Amazon Textract 使用機器學習來閲讀文檔，就像個人一樣。它從文檔中提取文本、表格和表單。使用下列最佳實務，以取得文檔的最佳結果。

提供最佳輸入文檔

以下是優化輸入文檔以獲得更好結果的幾種方法的列表。

確保您的文檔文本使用 Amazon Textract 支持的語言。目前，Amazon Textract 支援英文、西班牙文、德文、義大利文、法文和葡萄牙文。
提供高質量的圖像，理想情況下至少為 150 DPI。
如果您的文檔已採用 Amazon Textract 支持的文件格式之一（PDF、TIFF、JPEG 和 PNG），請不要在將文檔上傳到 Amazon Textract 之前對文檔進行轉換或縮小樣本。

為了在從文檔中的表中提取文本時獲得最佳結果，請確保：

從表中提取文本時，在以下情況下可能會看到不一致的結果：

建議您使用文字偵測作為解決方法。

您應該考慮 Amazon Textract API 操作返回的置信度分數及其使用案例的敏感性。可信度分數是介於 0 到 100 之間的數字，表示給定預測正確性的概率。它可以幫助您就如何使用結果做出明智的決策。

在對檢測錯誤（誤報）敏感的應用程序中，強制執行最小置信度閾值。應用程序應該放棄低於該閾值的結果，或者將需要更高級別的人工審查的情況標記為情況。

最佳閾值取決於應用程式。對於存檔目的，例如記錄手寫筆記，它可能低至 50%。涉及財務決策的業務流程可能需要 90% 或更高的閾值。

還可以考慮將人工審核納入工作流程。這對敏感應用程序尤其重要，例如涉及財務決策的業務流程。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

處理受限制的呼叫和已刪除的連接

教學課程