Amazon Textract に関するベストプラクティス - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Textract に関するベストプラクティス

Amazon Textract は、人のように機械学習を使用してドキュメントを読み取ります。ドキュメントからテキスト、表、およびフォームを抽出します。以下のベストプラクティスを使用して、ドキュメントから最良の結果を取得してください。

最適な入力ドキュメントを提供する

次に、より良い結果を得るために入力ドキュメントを最適化するいくつかの方法のリストを示します。

  • ドキュメントテキストが Amazon Textract がサポートする言語であることを確認します。現在、Amazon Textract は、英語、スペイン語、ドイツ語、イタリア語、フランス語、ポルトガル語をサポートしています。

  • 高品質の画像を提供します。理想的には少なくとも 150 DPI です。

  • Amazon Textract がサポートするファイル形式 (PDF、TIFF、JPEG、PNG) にドキュメントがすでに含まれている場合は、Amazon Textract にアップロードする前にドキュメントを変換またはダウンサンプルしないでください。

ドキュメント内の表からテキストを抽出するときに最適な結果を得るには、次のことを確認してください。

  • ドキュメント内のテーブルは、ページ上の周囲の要素から視覚的に分離されます。たとえば、表はイメージや複雑なパターンにオーバーレイされません。

  • テーブル内のテキストは直立しています。たとえば、テキストは、ページ上の他のテキストに対して相対的に回転されません。

表からテキストを抽出するときに、次のような場合に一貫性のない結果が表示されることがあります。

  • 複数の列にまたがる結合された表のセル。

  • 同じテーブルの他の部分とは異なるセル、行、または列を含むテーブル。

の使用をお勧めしますテキストの検出回避策として。

信頼スコアの使用

Amazon Textract API オペレーションによって返される信頼スコアと、そのユースケースの感度を考慮する必要があります。信頼スコアは 0~100 の間の数値で、与えられた予測が正しい確率を示します。これにより、結果の使用方法について、情報に基づいた決定を下すことができます。

検出エラー(誤検出)の影響を受けやすいアプリケーションでは、最小信頼スコアのしきい値を適用します。アプリケーションは、そのしきい値を下回る結果を破棄するか、より高いレベルの人間の精査を必要とする状況にフラグを付ける必要があります。

最適なしきい値は、アプリケーションによって異なります。手書きメモを文書化するなどのアーカイブ目的では、50% も低い場合があります。財務上の決定を伴うビジネスプロセスでは、90% 以上のしきい値が必要になる場合があります。

ヒューマンレビューの使用を検討する

また、ワークフローにヒューマンレビューを組み込むことも検討してください。これは、財務上の決定を伴うビジネスプロセスなど、機密性の高いアプリケーションでは特に重要です。