設計自動化解決方案來分析 上的 PDF 檔案 AWS 雲端 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設計自動化解決方案來分析 上的 PDF 檔案 AWS 雲端

Tianxia Jia 和 Yanyan Zhang,Amazon Web Services (AWS)

2021 年 10 月 (文件歷史記錄)

組織會定期使用 PDF 檔案來存放和傳輸不同的資料類型,包括文字、資料表和表單。不過,自動彙總和分析來自不同 PDF 檔案的資料可能具有挑戰性。例如,組織的商業應用程式可能會定期擷取格式相同的不同 PDF 檔案,但使用者必須個別開啟和讀取。這表示使用者發現很難從這些 PDF 檔案產生有用的洞見,而且必須手動擷取相關資料,並使用第三方工具進行進一步分析。

在 Amazon Web Services (AWS) 雲端上,Amazon Textract 會自動從 PDF 檔案擷取資訊 (例如,列印的文字、表單和資料表),並產生 JSON 格式的檔案,其中包含原始 PDF 檔案的資訊。在後製處理期間,擷取的資料會儲存在 Amazon DynamoDB 中,而且您可以使用 Amazon QuickSight 中的分析和視覺化產生商業洞見。

本指南分四個階段提供無伺服器、自動化 PDF 檔案分析解決方案:

  • 擷取階段 – 準備您的組織持續產生的 PDF 檔案類型 (例如,每日操作報告),您需要定期從中擷取資料。

  • 處理階段 – 從 PDF 檔案擷取下游應用程式所需的資料值。

  • 資料儲存階段 – 將擷取的資料儲存為 Amazon Simple Storage Service (Amazon S3) 中的 JSON 檔案,並在 DynamoDB 資料表中儲存為記錄。

  • 分析階段 – 在 Amazon QuickSight 中建立儀表板,以視覺化並協助分析資料。

本指南使用 Amazon S3 存放原始和已處理的資料,AWS Lambda用於運算、Amazon Textract 從 PDF 檔案擷取內容、DynamoDB 存放已處理的資料,以及 Amazon QuickSight 用於分析和視覺化。本指南適用於希望自動擷取資訊並從 PDF 檔案產生洞見的資料科學家、機器學習 (ML) 工程師和解決方案架構師。

目標業務成果

在設計自動化解決方案以分析 上的 PDF 檔案後,您應該會預期以下三個結果 AWS 雲端:

  • 使用可在新資料可用時重新整理的自動化解決方案,以大規模自動處理來自多個 PDF 檔案的原始資料。

  • 下游建模和分析應用程式 (例如 Amazon SageMaker AI 中的 ML 建模) 可以存取擷取的 PDF 檔案內容。

  • 在 QuickSight 中向最終使用者顯示所有 PDF 檔案內容的資料儀表板。