Documents - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

 Documents

文件的標準輸出可讓您設定感興趣的回應精細程度,以及在輸出中建立輸出格式和文字格式。以下是您可以啟用的一些輸出。

注意

BDA 可以處理 DOCX 檔案。若要處理 DOCX 檔案,它們會轉換為 PDFs。這表示頁碼映射不適用於 DOCX 檔案。如果選取 JSON+ 選項和頁面精細程度,則會將轉換PDFs 影像上傳至輸出儲存貯體。

回應精細程度

回應精細程度決定您希望從文件文字擷取中接收的回應類型。每個精細程度都為您提供越來越多獨立的回應,頁面提供所有擷取在一起的文字,而單字則提供每個單字作為單獨的回應。可用的精細程度層級為:

  • 頁面層級精細程度 – 預設會啟用此功能。頁面層級精細程度會以您選擇的文字輸出格式提供文件的每個頁面。如果您正在處理 PDF,啟用此精細程度將會偵測並傳回內嵌超連結。

  • 元素層級精細程度 (圖層) – 預設會啟用此功能。以您選擇的輸出格式提供文件的文字,分隔成不同的元素。這些元素,例如圖形、資料表或段落。這些會根據文件的結構,以邏輯讀取順序傳回。如果您正在處理 PDF,啟用此精細程度將會偵測並傳回內嵌超連結。

  • 單字層級精細程度 – 提供個別單字的相關資訊,而不使用更廣泛的內容分析。為您提供頁面上的每個單字及其位置。

輸出設定

輸出設定會決定您下載結果的結構方式。此設定專屬於 主控台。輸出設定的選項包括:

  • JSON – 文件分析的預設輸出結構。提供 JSON 輸出檔案,其中包含組態設定中的資訊。

  • JSON+files – 使用此設定可同時產生與不同輸出對應的 JSON 輸出和檔案。例如,此設定提供整體文字擷取的文字檔案、具有結構標記的文字的 Markdown 檔案,以及文字中每個資料表的 CSV 檔案。將儲存位於文件內的圖形,以及圖形裁剪和修正後的影像。此外,如果您正在處理 DOCX 檔案,且已選取此選項,則 DOCX 檔案的轉換後 PDF 將位於輸出資料夾中。這些輸出位於您的輸出資料夾中的 standard_output/logical_doc_id/assets/

文字格式

文字格式決定將透過各種擷取操作提供的不同文字類型。您可以為您的文字格式選取任意數量的下列選項。

  • 純文字 – 此設定提供純文字輸出,不記錄格式或其他 Markdown 元素。

  • 含 Markdown 的文字 – 標準輸出的預設輸出設定。提供整合 Markdown 元素的文字。

  • 具有 HTML 的文字 – 提供整合在回應中的 HTML 元素的文字。

  • CSV – 為文件中的資料表提供 CSV 結構化輸出。這只會提供資料表的回應,而不會提供文件的其他元素。

邊界框和生成欄位

針對 文件,有兩個回應選項可根據選取的精細程度變更其輸出。這些是週框方塊和生成欄位。選取週框方塊將提供您在主控台回應下拉式清單中按一下的元素或字詞的視覺化大綱。這可讓您更輕鬆地追蹤回應的特定元素。邊界方塊會在您的 JSON 中傳回,做為方塊四個角的座標。

當您選取生成欄位時,會產生文件摘要,包括 10 個單字和 250 個單字版本。然後,如果您選取元素作為回應精細程度,則會產生文件中偵測到的每個圖形的描述性字幕。圖包含圖表、圖形和影像等物件。

Bedrock 資料自動化文件回應

本節著重於您在文件檔案上執行 API 操作 InvokeDataAutomation 時收到的不同回應物件。以下我們將細分回應物件的每個區段,然後查看範例文件的完整填入回應。我們會收到的第一個區段是 metadata

"metadata":{ "logical_subdocument_id":"XXXX-XXXX-XXXX-XXXX", "semantic_modality":"DOCUMENT", "s3_bucket":"bucket", "s3_prefix":"prefix" },

上一節提供與文件相關聯的中繼資料概觀。除了 S3 資訊之外,本節也會通知您為回應選取了哪些模式。

"document":{ "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "description":"document text", "summary":"summary text", "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 } },

上一節提供文件層級精細程度資訊。描述和摘要區段是根據文件產生的欄位 表示區段提供具有各種格式樣式的文件實際內容。最後統計資料包含文件實際內容的資訊,例如有多少語意元素、有多少圖形、單字、行等。

這是資料表實體的資訊。除了位置資訊、不同格式的文字、資料表和讀取順序之外,它們還特別在 S3 儲存貯體中傳回資料表的 csv 資訊和裁切影像。CSV 資訊會顯示不同的標頭、頁尾和標題。影像將路由至 InvokeDataAutomationAsync 請求中設定字首的 s3 儲存貯體

當您處理 PDF 時,回應的統計資料區段也會包含 hyperlinks_count ,告訴您文件中有多少超連結。

{ "id":"entity_id", "type":"TEXT", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "reading_order":2, "page_indices":[ 0 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0.0, "top":0.0, "width":0.05, "height":0.5 } } ], "sub_type":"TITLE/SECTION_TITLE/HEADER/FOOTER/PARAGRAPH/LIST/PAGE_NUMBER" },

這是用於文件中文字的實體,由回應中的 TYPE行表示。同樣地, 表示法會以不同的格式顯示文字。 reading_order會顯示讀取器在邏輯上看到文字的時間。這是根據相關聯索引鍵和值的語意排序。例如,它會依讀取順序將段落標題與其個別段落建立關聯。 page_indices會告訴您文字所在的頁面。接下來是位置資訊,如果已在回應中啟用,則會提供文字週框方塊。最後,我們有實體子類型。此子類型提供偵測到何種文字類型的詳細資訊。如需子類型的完整清單,請參閱 API 參考。

{ "id":"entity_id", "type":"TABLE", "representation":{ "html":"table.../table", "markdown":"| header | ...", "text":"header \t header", "csv":"header, header, header\n..." }, "csv_s3_uri":"s3://", "headers":[ "date", "amount", "description", "total" ], "reading_order":3, "title":"Title of the table", "footers":[ "the footers of the table" ], "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "page_indices":[ 0, 1 ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } }, { "page_index":1, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ] },

這是資料表實體的資訊。除了位置資訊、不同格式的文字、資料表和讀取順序之外,它們還特別在 S3 儲存貯體中傳回資料表的 csv 資訊和裁切影像。CSV 資訊會顯示不同的標頭、頁尾和標題。影像將路由至 InvokeDataAutomation 請求中設定的字首 s3 儲存貯體。

{ "id":"entity_id", "type":"FIGURE", "summary":"", "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "crop_images":[ "s3://bucket/prefix.png", "s3://bucket/prefix.png" ], "locations":[ { "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } ], "sub_type":"CHART", "title":"figure title", "rai_flag":"APPROVED/REDACTED/REJECTED", "reading_order":1, "page_indices":[ 0 ] } , ​

這是用於圖形的實體,例如在文件圖形和圖表中。與資料表類似,這些圖形將被裁切,並傳送到字首中 s3 儲存貯體集的影像。此外,您會收到標題文字的 sub_type 和圖形標題回應,以及其類型圖形的指示。

"pages":[ { "id":"page_id", "page_index":0, "detected_page_number":1, "representation":{ "text":"document text", "html":"document title document content", "markdown":"# text" }, "statistics":{ "element_count":5, "table_count":1, "figure_count":1, "word_count":1000, "line_count":32 }, "asset_metadata":{ "rectified_image":"s3://bucket/prefix.png", "rectified_image_width_pixels":1700, "rectified_image_height_pixels":2200 } } ],

我們透過標準輸出擷取的最後一個實體是分頁。頁面與文字實體相同,但還包含偵測到的頁碼位於頁面上的頁碼。

"text_lines":[ { "id":"line_id", "text":"line text", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ],
"text_words":[ { "id":"word_id", "text":"word text", "line_id":"line_id", "reading_order":1, "page_index":0, "locations":{ "page_index":0, "bounding_box":{ "left":0, "top":0, "width":1, "height":1 } } } ]

最後兩個元素適用於個別文字部分。單字層級精細程度會傳回每個單字的回應,而預設輸出只會報告一行文字。

其他檔案格式中繼資料 JSON

當您從其他檔案格式旗標收到其他檔案時,您會收到任何擷取之修正影像的 JSON 檔案。BDA 使用同質圖將影像旋轉成 90 度角來修正旋轉的影像。JSON 的範例如下:

"asset_metadata": { "rectified_image": "s3://bucket/prefix.png", "rectified_image_width_pixels": 1700, "rectified_image_height_pixels": 2200, "corners": [ [ 0.006980135689736235, -0.061692718505859376 ], [ 1.10847711439684, 0.00673927116394043 ], [ 0.994479346419327, 1.050548828125 ], [ -0.11249661383904497, 0.9942819010416667 ] ] }

邊角代表偵測到的影像邊角,用來形成文件的同質。此同義詞用於旋轉影像,同時維護其其他屬性。