非同步分析工作的輸出 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

非同步分析工作的輸出

分析任務完成後,會將結果儲存在您在請求中指定的 S3 儲存貯體中。

文字輸入的輸出

對於文字輸入檔案,輸出由每個輸入文件的實體清單組成。

下列範例會使用每行格式一個文件50_docs,顯示名為的輸入檔案中兩個文件的輸出。

{ "File": "50_docs", "Line": 0, "Entities": [ { "BeginOffset": 0, "EndOffset": 22, "Score": 0.9763959646224976, "Text": "John Johnson", "Type": "JUDGE" } ] } { "File": "50_docs", "Line": 1, "Entities": [ { "BeginOffset": 11, "EndOffset": 15, "Score": 0.9615424871444702, "Text": "Thomas Kincaid", "Type": "JUDGE" } ] }

半結構化輸入的輸出

對於半結構化輸入文件,輸出可以包含下列其他欄位:

  • DocumentMetadata — 擷取有關文件的資訊。元數據包括文檔中的頁面列表,其中包含從每個頁面中提取的字符數。如果請求包含Byte參數,則此字段存在於響應中。

  • DocumentType — 輸入文件中每頁的文件類型。此欄位會出現在包含Byte參數之要求的回應中。

  • 區塊 — 輸入文件中每個文字區塊的相關資訊。圖塊可以在圖塊內巢狀。頁面區塊會針對每一行文字包含一個區塊,其中包含每個字詞的區塊。此欄位會出現在包含Byte參數之要求的回應中。

  • BlockReferences — 此圖元每個圖塊的參考。此欄位會出現在包含Byte參數之要求的回應中。該字段不存在於文本文件。

  • Error — 系統在處理輸入文件時偵測到的頁面層級錯誤。如果系統沒有發生任何錯誤,則此欄位為空白。

如需有關這些輸出欄位的詳細資訊,請參閱 Amazon Comprehend API 參考DetectEntities中的

下列範例顯示單頁原生 PDF 輸入文件的輸出。

範例 PDF 文件的自訂實體辨識分析輸出範例
{ "Blocks": [ { "BlockType": "LINE", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "4330efed-6334-4fc4-ba48-e050afa95c8d", "Page": 1, "Relationships": [ { "ids": [ "f343ce48-583d-4abe-b84b-a232e266450f" ], "type": "CHILD" } ], "Text": "S-3" }, { "BlockType": "WORD", "Geometry": { "BoundingBox": { "Height": 0.012575757575757575, "Left": 0.0, "Top": 0.0015063131313131314, "Width": 0.02262091503267974 }, "Polygon": [ { "X": 0.0, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.0015063131313131314 }, { "X": 0.02262091503267974, "Y": 0.014082070707070706 }, { "X": 0.0, "Y": 0.014082070707070706 } ] }, "Id": "f343ce48-583d-4abe-b84b-a232e266450f", "Page": 1, "Relationships": [], "Text": "S-3" } ], "DocumentMetadata": { "PageNumber": 1, "Pages": 1 }, "DocumentType": "NativePDF", "Entities": [ { "BlockReferences": [ { "BeginOffset": 25, "BlockId": "4330efed-6334-4fc4-ba48-e050afa95c8d", "ChildBlocks": [ { "BeginOffset": 1, "ChildBlockId": "cbba5534-ac69-4bc4-beef-306c659f70a6", "EndOffset": 6 } ], "EndOffset": 30 } ], "Score": 0.9998825926329088, "Text": "0.001", "Type": "OFFERING_PRICE" }, { "BlockReferences": [ { "BeginOffset": 41, "BlockId": "f343ce48-583d-4abe-b84b-a232e266450f", "ChildBlocks": [ { "BeginOffset": 0, "ChildBlockId": "292a2e26-21f0-401b-a2bf-03aa4c47f787", "EndOffset": 9 } ], "EndOffset": 50 } ], "Score": 0.9809727537330395, "Text": "6,097,560", "Type": "OFFERED_SHARES" } ], "File": "example.pdf", "Version": "2021-04-30" }