資料儲存體 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料儲存體

由於 PDF 檔案內容通常包含表單 (鍵值配對)、表格和自由文字,因此 JSON 檔案必須包含巢狀索引鍵值配對,以表示 PDF 檔案結構並儲存擷取的資料。PDF 文件是非結構化或半結構化數據,這意味著它們沒有固定的模式。這意味著將 PDF 文件內容存儲在傳統的 SQL 數據庫中可能具有挑戰性。但是,NoSQL 數據庫非常適合存儲 PDF 文件內容,因為它不需要預定義的模式。擷取 PDF 檔案內容並進行後處理後,您可以將它們作為每個 PDF 檔案的一筆記錄存放在 Amazon DynamoDB 表格中。

我們建議您將最終擷取資料作為 JSON 檔存放在 Amazon Simple Storage Service (Amazon S3) 中,以及作為記錄存放在 DynamoDB 表中。您的下游處理和分析應用程式可以輕鬆參考 Amazon S3 中的 JSON 檔案。例如,他們可以使用 Amazon S3 做為在亞馬遜中建置機器學習模型的資料來源 SageMaker、使用亞馬 Amazon Athena 直接查詢 JSON 檔案,或使用 Amazon S3 做為亞馬遜的資料來源 QuickSight。儲存在 DynamoDB 表格中的擷取 PDF 檔案內容可以輕鬆存取任何規模的低延遲,這使得此方法適合用作查詢和掃描的後端資料庫。

資料儲存階段

請使用下列兩個最佳做法來確保資料儲存階段成功:

  • 請確定您將最終的 JSON 檔案儲存在 Amazon S3 中的不同輸出資料夾中,並使用以 PDF 檔案類型為基礎的名稱。

  • DynamoDB 使用主索引鍵來唯一識別資料表中的每個項目。主索引鍵可以是單一索引鍵 (例如,分割區索引鍵) 或複合索引鍵 (例如,分割索引鍵和排序索引鍵)。對於此解決方案的主索引鍵,建議您使用唯一的 PDF 檔案識別碼 (例如,PDF 檔案名稱) 作為分割索引鍵,或是兩個識別碼 (例如,日期和倉儲名稱) 的組合作為分割索引鍵和排序索引鍵。如需有關這方面的詳細資訊,請參閱 Amazon DynamoDB 文件中的核心元件