テーブル - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テーブル

Amazon Textract は、テーブルおよびテーブル内のセルを抽出できます。たとえば、フォームで次のテーブルが検出されると、Amazon Textract は 4 つのセルを含むテーブルを検出します。

[Name] (名前) Address

アナ・カロライナ

123 Any Town

検出されたテーブルは次のように返されます。Blockからの応答内のオブジェクトAnalyzeDocumentそしてGetDocumentAnalysis。♪FeatureTypesキーと値のペア、テーブル、またはその両方に関する情報を取得するための入力パラメータ。テーブルの場合のみ、値を使用します。TABLES。例については、CSV ファイルへのテーブルのエクスポート を参照してください。でドキュメントがどのように表されるかに関する一般情報については、Blockオブジェクト、「」を参照してください。テキスト検出および文書分析応答オブジェクト

次の図は、表内の 1 つのセルがどのように表されるかを示しています。Blockオブジェクト。

セルの内容WORD検出された単語のブロック、およびSELECTION_ELEMENTチェックボックスなどの選択要素のブロック。

次に、4 つのセルがある前のテーブルの部分 JSON を示します。

PAGE ブロックオブジェクトには、TABLE ブロックの子ブロック ID と検出されたテキストの各行のリストがあります。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "f2a4ad7b-f21d-4966-b548-c859b84f66a4", // Line - Name "4dce3516-ffeb-45e0-92a2-60770e9cb744", // Line - Address "ee506578-768f-4696-8f4b-e4917e429f50", // Line - Ana Carolina "33fc7223-411b-4399-8a90-ccd3c5a2c196", // Line - 123 Any Town "3f9665be-379d-4ae7-be44-d02f32b049c2" // Table ] } ], "BlockType": "PAGE", "Id": "78c3ce84-ae70-418e-add7-27058418adf6" },

TABLE ブロックには、テーブル内のセルの子 ID のリストが含まれます。TABLE ブロックには、ドキュメント内のテーブル位置のジオメトリ情報も含まれます。次の JSON は、テーブルに 4 つのセルがあることを示しています。Ids配列。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "505e9581-0d1c-42fb-a214-6ff736822e8c", "6fca44d4-d3d3-46ab-b22f-7fca1fbaaf02", "9778bd78-f3fe-4ae1-9b78-e6d29b89e5e9", "55404b05-ae12-4159-9003-92b7c129532e" ] } ], "BlockType": "TABLE", "Confidence": 92.5705337524414, "Id": "3f9665be-379d-4ae7-be44-d02f32b049c2" },

表のセルの [ブロックタイプ] は [セル] です。-Block各セルのオブジェクトには、表内の他のセルと比較したセルの位置に関する情報が含まれます。また、ドキュメント上のセルの位置に関するジオメトリ情報も含まれます。前の例では、以下のようになっています。505e9581-0d1c-42fb-a214-6ff736822e8c単語を含むセルの子 ID はありますか名前。次の例は、セルの情報です。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "e9108c8e-0167-4482-989e-8b6cd3c3653e" ] } ], "Confidence": 100.0, "RowSpan": 1, "RowIndex": 1, "ColumnIndex": 1, "ColumnSpan": 1, "BlockType": "CELL", "Id": "505e9581-0d1c-42fb-a214-6ff736822e8c" },

各セルは表内の位置を持ち、最初のセルは 1,1 です。前の例では、値が設定されたセル名前は行 1、列 1 にあります。値を持つセル123 Any Townは行 2、列 2 にあります。セルブロックオブジェクトには、この情報がRowIndexそしてColumnIndexフィールド。子リストには、セル内のテキストを含む WORD Block オブジェクトの ID が含まれます。リスト内の単語は、セルの左上からセルの右下まで、検出された順に表示されます。前の例では、セルに値 e9108c8e-0167-4482-989e-8b6cd3c3653e を持つ子 ID があります。次の出力は、E9108c8e-0167-4482-989e-8b6cd3c3653e のワードブロックに対するものです。

"Geometry": {...}, "Text": "Name", "TextType": "Printed", "BlockType": "WORD", "Confidence": 99.81139373779297, "Id": "e9108c8e-0167-4482-989e-8b6cd3c3653e" },