ドキュメントを分析する - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ドキュメントを分析する

Amazon Textract は、検出されたテキスト間の関係についてドキュメントとフォームを分析します。Amazon Textract 分析オペレーションでは、テキスト、フォーム、表の 3 つのカテゴリのドキュメント抽出が返されます。請求書と領収書の分析は、別のプロセスで処理されます。詳細については、を参照してください。請求書と領収書の分析

テキスト抽出

ドキュメントから抽出された生のテキスト。詳細については、「」を参照してください。テキストの行と単語

フォームの抽出

フォームデータは、ドキュメントから抽出されたテキストアイテムにリンクされます。Amazon Textract は、キーと値のペアでフォームデータを表します。次の例では、Amazon Textract によって検出されたテキスト行の 1 つが次のようになります。名前: Jane Doe。Amazon Textract はキーも識別します (名前:) と値 (Jane Doe). 詳細については、「」を参照してください。フォームデータ (キーバリューペア)

名前: Jane Doe

住所: 123 Any Street, エニータウン, アメリカ合衆国

生年月日: 12-26-1980

キーと値のペアは、フォームから抽出されたチェックボックスまたはオプションボタン(ラジオボタン)を表すためにも使用されます。

male:

詳細については、「」を参照してください。選択エレメント

表抽出

Amazon Textract は、テーブル、テーブルセル、およびテーブルセル内のアイテムを抽出でき、JSON、.csv、または.txt ファイルに結果を返すようにプログラムできます。

[Name] (名前) Address

アナ・カロライナ

123 Any Town

詳細については、テーブルを参照してください。選択要素は、テーブルから抽出することもできます。詳細については、「」を参照してください。選択エレメント

分析された商品の場合、Amazon Textract は以下を複数で返します。Blockオブジェクト:

  • 検出されたテキストの行と単語

  • 検出されたアイテムの内容

  • 検出されたアイテム間の関係

  • アイテムが検出されたページ

  • ドキュメントページ上のアイテムの場所

同期または非同期操作を使用して、文書内のテキストを分析できます。テキストを同期的に分析するには、AnalyzeDocument操作を行い、ドキュメントを入力として渡します。AnalyzeDocument結果セット全体を返します。詳細については、「Amazon Textract を使用したドキュメントテキストの分析」を参照してください。

テキストを非同期で検出するには、StartDocumentAnalysisをクリックして処理を開始します。結果を取得するには、GetDocumentAnalysis。結果は 1 つ以上の応答で返されます。GetDocumentAnalysis。詳細と例については、「複数ページドキュメント内のテキストの検出または分析」を参照してください。

実行する解析のタイプを指定するには、FeatureTypes入力パラメータをリストします。表セル、セルテキスト、セル内の選択要素など、入力ドキュメントで検出された表に関する情報を返すには、TABLES を一覧に追加します。FORMS を追加して、キーと値のペアや選択要素などの単語の関係を返します。両方のタイプの分析を実行するには、TABLES と FORMS の両方をFeatureTypes

ドキュメント内で検出されたすべての行と単語が応答に含まれます(次の値に関係しないテキストを含む)。FeatureTypes).