设计用于分析 PDF 文件的自动化解决方案 AWS Cloud

贾天霞和张燕燕，Amazon Web Services ()AWS

2021 年 10 月（文档历史记录）

Organizations 经常使用 PDF 文件来存储和传输不同的数据类型，包括文本、表格和表单。但是，自动聚合和分析来自不同 PDF 文件的数据可能很困难。例如，组织的业务应用程序可能会定期采集格式相同的不同 PDF 文件，但用户必须单独打开和阅读这些文件。这意味着用户发现很难从这些 PDF 文件中生成有用的见解，必须手动提取相关数据并使用第三方工具进行进一步分析。

在亚马逊 Web Services (AWS) 云上，Amazon Textrac t 会自动从 PDF 文件中提取信息（例如打印的文本、表单和表格），并生成包含原始 PDF 文件信息的 JSON 格式的文件。在后期处理过程中，提取的数据存储在 Amazon DynamoDB 中，您可以使用亚马逊中的分析和可视化来生成业务见解。 QuickSight

本指南分四个阶段提供无服务器自动化 PDF 文件分析解决方案：

摄取阶段— 准备您的组织持续生成的 PDF 文件类型（例如，每日运营报告），并且需要定期从中提取数据。
处理阶段— 从 PDF 文件中提取下游应用程序所需的数据值。
数据存储阶段— 将提取的数据作为 JSON 文件存储在亚马逊简单存储服务 (Amazon S3) Service 中，并作为记录存储在 DynamoDB 表中。
分析阶段— 在 Amazon 中创建控制面板 QuickSight 以可视化数据并帮助分析数据。

该指南使用 Amazon S3 存储原始数据和经过处理的数据，AWS Lambda用于计算，使用 Amazon Textr act 来从 PDF 文件中提取内容，使用 Dynam oDB 存储处理过的数据，使用亚马逊存储分析和可视化。 QuickSight本指南适用于想要自动从 PDF 文件中提取信息并生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。

目标业务成果

在设计了用于分析 PDF 文件的自动化解决方案后，您应该期望获得以下三个结果 AWS Cloud：

使用自动解决方案，自动处理来自多个 PDF 文件的原始数据，该解决方案会在有新数据可用时刷新。
下游建模和分析应用程序（例如 Amazon A SageMaker I 中的机器学习建模）可以访问提取的 PDF 文件内容。
数据仪表板可在中向您的最终用户显示所有 PDF 文件内容 QuickSight。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

参考架构