Amazon Textract に関するベストプラクティス

Amazon Textract は、人のように機械学習を使用してドキュメントを読み取ります。ドキュメントからテキスト、表、およびフォームを抽出します。以下のベストプラクティスを使用して、ドキュメントから最良の結果を取得してください。

最適な入力ドキュメントを提供する

次に、より良い結果を得るために入力ドキュメントを最適化するいくつかの方法のリストを示します。

ドキュメントテキストが Amazon Textract がサポートする言語であることを確認します。現在、Amazon Textract は、英語、スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語をサポートしています。
高品質の画像を提供します。理想的には少なくとも 150 DPI です。
Amazon Textract がサポートするファイル形式 (PDF、TIFF、JPEG、PNG) にドキュメントがすでに含まれている場合は、Amazon Textract にアップロードする前にドキュメントを変換またはダウンサンプルしないでください。

ドキュメント内の表からテキストを抽出するときに最適な結果を得るには、次のことを確認してください。

表からテキストを抽出するときに、次のような場合に一貫性のない結果が表示されることがあります。

の使用をお勧めしますテキストの検出回避策として。

Amazon Textract API オペレーションによって返される信頼スコアと、そのユースケースの感度を考慮する必要があります。信頼スコアは 0～100 の間の数値で、与えられた予測が正しい確率を示します。これにより、結果の使用方法について、情報に基づいた決定を下すことができます。

検出エラー（誤検出）の影響を受けやすいアプリケーションでは、最小信頼スコアのしきい値を適用します。アプリケーションは、そのしきい値を下回る結果を破棄するか、より高いレベルの人間の精査を必要とする状況にフラグを付ける必要があります。

最適なしきい値は、アプリケーションによって異なります。手書きメモを文書化するなどのアーカイブ目的では、50% も低い場合があります。財務上の決定を伴うビジネスプロセスでは、90% 以上のしきい値が必要になる場合があります。

また、ワークフローにヒューマンレビューを組み込むことも検討してください。これは、財務上の決定を伴うビジネスプロセスなど、機密性の高いアプリケーションでは特に重要です。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

スロットルコールとドロップされた接続の処理

チュートリアル