本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
设计自动化解决方案来分析上的 PDF 文件AWS Cloud
贾天霞和张燕燕,Amazon Web Services (AWS)
2021 年 10 月(文档历史记录)
Organizations 经常使用 PDF 文件来存储和传输不同的数据类型,包括文本、表格和表单。但是,自动汇总和分析来自不同 PDF 文件的数据可能很困难。例如,组织的业务应用程序可能会定期提取格式相同的不同 PDF 文件,但用户必须单独打开和阅读。这意味着用户发现很难从这些PDF文件中生成有用的见解,必须手动提取相关数据并使用第三方工具进行进一步分析。
在Amazon Web Services (AWS) 云上,Amazon Textrac t 会自动从 PDF 文件中提取信息(例如,打印的文本、表单和表格),并生成 JSON 格式的文件,其中包含来自原始 PDF 文件的信息。在后处理期间,提取的数据存储在 Amazon DynamoDB 中,您可以使用亚马逊中的分析和可视化来生成业务见解 QuickSight。
本指南分四个阶段提供无服务器的自动化 PDF 文件分析解决方案:
-
摄取阶段— 准备组织持续生成的 PDF 文件类型(例如,每日运营报告),您需要定期从中提取数据。
-
处理阶段— 从 PDF 文件中提取下游应用程序所需的数据值。
-
数据存储阶段— 将提取的数据作为 JSON 文件存储在亚马逊Simple Storage Service (Amazon S3) 中,并作为记录存储在 DynamoDB 表中。
-
分析阶段— 在 Amazon 中创建仪表板 QuickSight 以可视化并帮助分析数据。
该指南使用 Amazon S3 存储原始数据和经过处理的数据,AWS Lambda用于计算,使用 Amazon Textract 从 PDF 文件中提取内容,使用 DynamoDB 存储处理过的数据,使用 Amazon QuickSight 进行分析和可视化。本指南适用于希望自动提取信息并从 PDF 文件中生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。
有针对性的业务成果
在设计了用于分析 PDF 文件的自动化解决方案后,您应该预计会得到以下三个结果AWS Cloud:
-
使用自动解决方案自动大规模处理来自多个 PDF 文件的原始数据,该解决方案在新数据可用时会刷新。
-
下游建模和分析应用程序(例如,Amazon 中的 ML 建模 SageMaker)可以访问提取的 PDF 文件内容。
-
数据仪表板向您的亚马逊最终用户显示所有 PDF 文件内容 QuickSight。