テキストの行と単語 - Amazon Textract

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

テキストの行と単語

Amazon Textract オペレーションによって返される検出されたテキストは、Blockオブジェクト。これらのオブジェクトは、文書ページで検出されたテキスト行またはテキスト単語を表します。次のテキストは、複数の単語から作成された 2 行のテキストを示しています。

これはテキストです。

2 つの別々の行で。

検出されたテキストはTextのフィールドBlockオブジェクト。-BlockTypeフィールドでは、テキストがテキスト行 (LINE) または単語 (WORD) のどちらであるかを指定します。ある単語スペースで区切られていない、1 個以上の ISO 基本ラテンアルファベットです。あるラインは、タブ区切りの連続した単語の文字列です。

さらに、Amazon Textract は、テキストが手書きまたは印刷されたかを判断します。TextTypesフィールド。これらはそれぞれ、手書き文字として返され、印刷されます。

他のBlockプロパティは、ID、信頼度、ジオメトリ情報など、すべてのブロックタイプに共通です。詳細については、「テキスト検出および文書分析応答オブジェクト」を参照してください。

行と単語のみを検出するには、DetectDocumentTextまたはStartDocumentTextDetection。詳細については、「テキストの検出」を参照してください。検出されたテキスト(行と単語)と、それが文書の他の部分(表など)とどのように関連しているかについての情報を取得するには、AnalyzeDocumentまたはStartDocumentAnalysis。詳細については、「ドキュメントを分析する」を参照してください。

PAGE,LINE, およびWORDブロックは、親と子の関係で互いに関連しています。あるPAGEブロックはすべての人の親ですLINEドキュメントページ上のオブジェクトをブロックします。LINEは1つ以上の単語を持つことができるため、RelationshipsLINE ブロックの配列は、テキスト行を構成する子の WORD ブロックの ID を格納します。

次の図は、この線の仕組みを示しています。Hello worldのテキストHello world お元気ですか?で表される。Blockオブジェクト。

以下に、からの JSON 出力を示します。DetectDocumentText文がいつあるかHello world お元気ですか?が検出されました。最初の例は、ドキュメントページの JSON です。子 ID によってドキュメント内を移動できる点に注意してください。

{ "Geometry": {...}, "Relationships": [ { "Type": "CHILD", "Ids": [ "d7fbd604-d609-4d69-857d-247a3f591238", // Line - Hello, world. "b6c19a93-6493-4d8e-958f-853c8f7ca055" // Line - How are you? ] } ], "BlockType": "PAGE", "Id": "56ec1d77-171f-4881-9852-2b5b7e761608" },

以下は、「Hello, World」という行を構成するLINEブロックの JSON です。

{ "Relationships": [ { "Type": "CHILD", "Ids": [ "7f97e2ca-063e-47a8-981c-8beee31afc01", // Word - Hello, "4b990aa0-af96-4369-b90f-dbe02538ed21" // Word - world. ] } ], "Confidence": 99.63229370117188, "Geometry": {...}, "Text": "Hello, world.", "BlockType": "LINE", "Id": "d7fbd604-d609-4d69-857d-247a3f591238" },

以下は、単語の WORD ブロックの JSON です。Hello,:

{ "Geometry": {...}, "Text": "Hello,", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.74746704101562, "Id": "7f97e2ca-063e-47a8-981c-8beee31afc01" },

最後の JSON は、その単語の WORD ブロックです。世界。:

{ "Geometry": {...}, "Text": "world.", "TextType": "PRINTED", "BlockType": "WORD", "Confidence": 99.5171127319336, "Id": "4b990aa0-af96-4369-b90f-dbe02538ed21" },