資料儲存階段 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

資料儲存階段

由於 PDF 檔案內容通常包含表單 (索引鍵/值對)、資料表和任意文字,因此 JSON 檔案必須包含巢狀索引鍵/值對,以代表 PDF 檔案結構並存放擷取的資料。PDF 檔案是非結構化或半結構化資料,這表示它們沒有固定的結構描述。這表示將 PDF 檔案內容存放在傳統 SQL 資料庫中可能具有挑戰性。不過,NoSQL 資料庫非常適合儲存 PDF 檔案內容,因為它不需要預先定義的結構描述。在解壓縮和後製處理 PDF 檔案內容之後,您可以將它們儲存為 Amazon DynamoDB 資料表中每個 PDF 檔案的一個記錄。

我們建議您將最終擷取的資料儲存為 Amazon Simple Storage Service (Amazon S3) 中的 JSON 檔案,並將記錄儲存為 DynamoDB 資料表中的記錄。您的下游處理和分析應用程式可以輕鬆參考 Amazon S3 中的 JSON 檔案。例如,他們可以使用 Amazon S3 作為在 Amazon SageMaker AI 中建置 ML 模型的資料來源、使用 Amazon Athena 直接查詢 JSON 檔案,或使用 Amazon S3 作為 Amazon QuickSight 的資料來源。儲存在 DynamoDB 資料表中的擷取 PDF 檔案內容可以輕鬆以任何規模的低延遲存取,這使得此方法適合用作後端資料庫以進行查詢和掃描。

資料儲存階段的最佳實務

使用下列兩個最佳實務,以確保資料儲存階段成功:

  • 請務必將 Amazon S3 上的最終 JSON 檔案存放在不同的輸出資料夾中,並根據 PDF 檔案類型使用名稱。

  • DynamoDB 使用主索引鍵來唯一識別資料表中的每個項目。主索引鍵可以是單一索引鍵 (例如,分割區索引鍵) 或複合索引鍵 (例如,分割區索引鍵和排序索引鍵)。對於此解決方案的主索引鍵,我們建議您使用唯一的 PDF 檔案識別符 (例如 PDF 檔案名稱) 做為分割區索引鍵,或結合兩個識別符 (例如日期和倉儲名稱) 做為分割區索引鍵和排序索引鍵。如需詳細資訊,請參閱 Amazon DynamoDB 文件中的 Amazon DynamoDB 核心元件。 DynamoDB