參考架構 - AWS 規定指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

參考架構

下圖顯示將本指南的自動化解決方案套用至日常作業報告後的工作流程。將新檔案導入 Amazon Simple Storage Service (Amazon S3) 中,在 Amazon Simple Storage Service (Amazon QuickSight S3) 中,可以立即將檔案視覺化。

此解決方案的四個階段工作流程:擷取、處理、儲存和分析。

該圖顯示了以下四個階段:

  1. PDF 檔案擷取 — 您的應用程式會自動將具有相同格式 (例如,每日作業報告) 的新 PDF 檔案會自動擷取到 Amazon Simple Storage Service (Amazon S3) 儲存貯體。Amazon S3 會在將新的 PDF 檔案新增至儲存貯體時啟ObjectCreated動事件,並呼叫AWS Lambda函數。如需這方面的詳細資訊,請參閱 Amazon S3 觸發條件:如何使用 Amazon S3 Lambda 發條件叫用 Amazon S3 觸發條件。

  2. PDF 檔案處理 — Lambda 函數會將一個 PDF 檔案傳送至 Amazon Textract 區塊,以擷取內容。後處理指令碼會執行並剖析 Amazon Textract 回應,並針對此類型的 PDF 檔案使用預先定義的範本。此模板包含正確的屬性,並有助於正確提取所有鍵-值對,表和其他原始文本。如需相關詳細資訊,請參閱AWS規範指導網站上的模式使用 Amazon Textract 自動從 PDF 檔案擷取內容

  3. 資料儲存 — 擷取和更正的資料除了儲存在每個 PDF 檔案的 JSON 檔案外,還會儲存在 Amazon DynamoDB 表格中。JSON 文件存儲在 S3 存儲桶中,可供下游處理和分析服務使用,例如 Amazon Athena QuickSight,亞馬遜亞馬遜 SageMaker

  4. 分析和視覺化 — Amazon 會分 QuickSight 析資料並建立視覺效果,協助產生所有已處理 PDF 檔案的見解。在 Amazon 中建立儀表板之後 QuickSight,您可以與最終使用者和業務團隊共用這些儀表板。

考量

本指南的解決方案適用於處理格式相同且表格和表格佈局一致的 PDF 檔案。但是,您必須定義樣板並事先對其進行編輯,以完全自動化該過程並使萃取資料可用於分析。然後在使用 Lambda 函數進行處理期間使用此範本。

雖然此解決方案可以同時套用至不同的 PDF 檔案類型,但您必須為每個 PDF 檔案類型建立和定義個別的範本,並將它們存放在可存取的位置 (例如 Amazon S3)。建議您針對每種 PDF 檔案類型使用唯一識別碼,例如 PDF 檔案名稱或 S3 儲存貯體中的不同資料夾。然後,Lambda 函數可以在處理 PDF 檔案類型時呼叫適當的範本。