非同期分析ジョブの出力 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

非同期分析ジョブの出力

分析ジョブが完了すると、リクエストに指定した S3 バケットに結果が保存されます。

テキスト入力の出力

テキスト入力ファイルの場合、出力は各入力ドキュメントのエンティティのリストで構成されます。

次の例は、 50_docs という名前の入力ファイルにある 2 つのドキュメントに対する出力を示しています。1 行に 1 つのドキュメントの形式です。

{ "File": "50_docs", "Line": 0, "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" } ] } { "File": "50_docs", "Line": 1, "Entities": [ { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

半構造化入力の出力

半構造化入力ドキュメントの場合、出力には以下の追加フィールドが含まれる場合があります。

  • DocumentMetadata - ドキュメントに関する抽出情報。メタデータには、ドキュメント内のページのリストと、各ページから抽出された文字数が含まれます。リクエストに Byte パラメータがあると、このフィールドが応答に含まれます。

  • DocumentType – 入力ドキュメントの各ページのドキュメントタイプ。リクエストに Byte パラメータがある場合、レスポンスにはこのフィールドが含まれます。

  • Blocks — 入力ドキュメントのテキストの各ブロックに関する情報。1つのブロックに、ブロックが入れ子になっている場合があります。1 つのページブロックはテキスト行ごとの 1 つのブロックで構成され、このブロックは単語ごとに 1 つのブロックで構成されます。リクエストに Byte パラメータがある場合、レスポンスにはこのフィールドが含まれます。

  • BlockReferences – このエンティティの各ブロックへの参照。リクエストに Byte パラメータがある場合、レスポンスにはこのフィールドが含まれます。テキストファイルの場合、このフィールドは存在しません。

  • エラー — 入力文書の処理中にシステムが検出したページレベルのエラー。エラーが検出されなかった場合、このフィールドは空です。

これらの出力フィールドの詳細については、「Amazon Comprehend API リファレンスDetectEntities」の「」を参照してください。

次の例は、1 ページのネイティブ PDF 入力文書の出力例です。

例 PDF ドキュメントのカスタムエンティティ認識分析の出力例
{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [ { "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }