設計自動化解決方案來分析上的 PDF 檔案 AWS 雲端

Tianxia Jia 和 Yanyan Zhang，Amazon Web Services (AWS)

2021 年 10 月 (文件歷史記錄)

組織會定期使用 PDF 檔案來存放和傳輸不同的資料類型，包括文字、資料表和表單。不過，自動彙總和分析來自不同 PDF 檔案的資料可能具有挑戰性。例如，組織的商業應用程式可能會定期擷取格式相同的不同 PDF 檔案，但使用者必須個別開啟和讀取。這表示使用者發現很難從這些 PDF 檔案產生有用的洞見，而且必須手動擷取相關資料，並使用第三方工具進行進一步分析。

在 Amazon Web Services (AWS) 雲端上，Amazon Textract 會自動從 PDF 檔案擷取資訊（例如，列印的文字、表單和資料表），並產生 JSON 格式的檔案，其中包含原始 PDF 檔案的資訊。在後製處理期間，擷取的資料會儲存在 Amazon DynamoDB 中，而且您可以使用 Amazon QuickSight 中的分析和視覺化產生商業洞見。

本指南分四個階段提供無伺服器、自動化 PDF 檔案分析解決方案：

擷取階段 – 準備您的組織持續產生的 PDF 檔案類型（例如，每日操作報告），您需要定期從中擷取資料。
處理階段 – 從 PDF 檔案擷取下游應用程式所需的資料值。
資料儲存階段 – 將擷取的資料儲存為 Amazon Simple Storage Service (Amazon S3) 中的 JSON 檔案，並在 DynamoDB 資料表中儲存為記錄。
分析階段 – 在 Amazon QuickSight 中建立儀表板，以視覺化並協助分析資料。

本指南使用 Amazon S3 存放原始和已處理的資料，AWS Lambda用於運算、Amazon Textract 從 PDF 檔案擷取內容、DynamoDB 存放已處理的資料，以及 Amazon QuickSight 用於分析和視覺化。本指南適用於希望自動擷取資訊並從 PDF 檔案產生洞見的資料科學家、機器學習 (ML) 工程師和解決方案架構師。

目標業務成果

在設計自動化解決方案以分析上的 PDF 檔案後，您應該會預期以下三個結果 AWS 雲端：

使用可在新資料可用時重新整理的自動化解決方案，以大規模自動處理來自多個 PDF 檔案的原始資料。
下游建模和分析應用程式（例如 Amazon SageMaker AI 中的 ML 建模）可以存取擷取的 PDF 檔案內容。
在 QuickSight 中向最終使用者顯示所有 PDF 檔案內容的資料儀表板。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

參考架構

設計自動化解決方案來分析 上的 PDF 檔案 AWS 雲端

目標業務成果

設計自動化解決方案來分析上的 PDF 檔案 AWS 雲端