本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
设计用于分析 PDF 文件的自动化解决方案 AWS Cloud
贾天霞和张燕燕,Amazon Web Services ()AWS
2021 年 10 月(文档历史记录)
Organizations 经常使用 PDF 文件来存储和传输不同的数据类型,包括文本、表格和表单。但是,自动聚合和分析来自不同 PDF 文件的数据可能很困难。例如,组织的业务应用程序可能会定期采集格式相同的不同 PDF 文件,但用户必须单独打开和阅读这些文件。这意味着用户发现很难从这些 PDF 文件中生成有用的见解,必须手动提取相关数据并使用第三方工具进行进一步分析。
在亚马逊 Web Services (AWS) 云上,Amazon Textrac t 会自动从 PDF 文件中提取信息(例如打印的文本、表单和表格),并生成包含原始 PDF 文件信息的 JSON 格式的文件。在后期处理过程中,提取的数据存储在 Amazon DynamoDB 中,您可以使用亚马逊中的分析和可视化来生成业务见解。 QuickSight
本指南分四个阶段提供无服务器自动化 PDF 文件分析解决方案:
-
摄取阶段— 准备您的组织持续生成的 PDF 文件类型(例如,每日运营报告),并且需要定期从中提取数据。
-
处理阶段— 从 PDF 文件中提取下游应用程序所需的数据值。
-
数据存储阶段— 将提取的数据作为 JSON 文件存储在亚马逊简单存储服务 (Amazon S3) Service 中,并作为记录存储在 DynamoDB 表中。
-
分析阶段— 在 Amazon 中创建控制面板 QuickSight 以可视化数据并帮助分析数据。
该指南使用 Amazon S3 存储原始数据和经过处理的数据,AWS Lambda用于计算,使用 Amazon Textr act 来从 PDF 文件中提取内容,使用 Dynam oDB 存储处理过的数据,使用亚马逊存储分析和可视化。 QuickSight本指南适用于想要自动从 PDF 文件中提取信息并生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。
目标业务成果
在设计了用于分析 PDF 文件的自动化解决方案后,您应该期望获得以下三个结果 AWS Cloud:
-
使用自动解决方案,自动处理来自多个 PDF 文件的原始数据,该解决方案会在有新数据可用时刷新。
-
下游建模和分析应用程序(例如 Amazon A SageMaker I 中的机器学习建模)可以访问提取的 PDF 文件内容。
-
数据仪表板可在中向您的最终用户显示所有 PDF 文件内容 QuickSight。