設計一個自動化的解決方案來分析 PDF 文件AWS 雲端 - AWS 規範指南

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

設計一個自動化的解決方案來分析 PDF 文件AWS 雲端

賈天下、張彥彥、Amazon Web Services (AWS)

2021 年十月 (文件歷史記錄)

Organizations 定期使用 PDF 文件來存儲和傳輸不同的數據類型,包括文本,表格和表格。但是,自動彙總和分析來自不同 PDF 文件的數據可能很困難。例如,組織的商務應用程式可能會定期擷取具有相同格式的不同 PDF 檔案,但使用者必須個別開啟和閱讀。這意味著用戶很難從這些 PDF 文件中生成有用的見解,並且必須手動提取相關數據並使用第三方工具進行進一步分析。

在 Amazon Web Services (AWS) 雲端上,Amazon Textract 會自動從 PDF 檔案擷取資訊 (例如,列印的文字、表單和表格),並產生 JSON 格式的檔案,其中包含原始 PDF 檔案中的資訊。在後處理期間,擷取的資料會存放在 Amazon DynamoDB 中,您可以使用 Amazon 中的分析和視覺化產生商業洞見 QuickSight。

本指南分四個階段提供無伺服器的自動化 PDF 檔案分析解決方案:

  • 擷取階段— 準備您的組織持續生成的 PDF 文件類型(例如,每日操作報告),並且您需要定期從中提取數據。

  • 加化階段— 從 PDF 檔案擷取下游應用程式所需的資料值。

  • 資料儲存體— 將擷取的資料以 JSON 檔案形式存放在亞馬遜 Simple Storage Service (Amazon S3) 中,並以記錄形式存放在 DynamoDB 表格中。

  • 分析階段— 在亞馬遜中創建儀表板 QuickSight 以可視化和幫助分析數據。

本指南使用 Amazon S3 存放原始和已處理的資料,用AWS Lambda於運算,Amazon Textract 可從 PDF 檔案擷取內容,使用 DynamoDB 來存放已處理的資料,而 Amazon 則用 QuickSight於分析和視覺化。本指南適用於想要自動擷取資訊並從 PDF 檔案產生洞察的資料科學家、機器學習 (ML) 工程師和解決方案架構師。

目標

在設計用於分析 PDF 檔案的自動化解決方案之後,您應該期待下列三個結果AWS 雲端:

  • 使用自動化解決方案,在有新資料可用時重新整理,自動大規模處理來自多個 PDF 檔案的原始資料。

  • 下游建模和分析應用程式 (例如,Amazon 中的 ML 建模 SageMaker) 可以存取擷取的 PDF 檔案內容。

  • 向 Amazon 最終使用者顯示所有 PDF 檔案內容的資料儀表板 QuickSight。