设计自动化解决方案来分析上的 PDF 文件AWS Cloud - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设计自动化解决方案来分析上的 PDF 文件AWS Cloud

贾天霞和张燕燕,Amazon Web Services (AWS)

2021 年 10 月文档历史记录

Organizations 经常使用 PDF 文件来存储和传输不同的数据类型,包括文本、表格和表单。但是,自动汇总和分析来自不同 PDF 文件的数据可能很困难。例如,组织的业务应用程序可能会定期提取格式相同的不同 PDF 文件,但用户必须单独打开和阅读。这意味着用户发现很难从这些PDF文件中生成有用的见解,必须手动提取相关数据并使用第三方工具进行进一步分析。

在Amazon Web Services (AWS) 云上,Amazon Textrac t 会自动从 PDF 文件中提取信息(例如,打印的文本、表单和表格),并生成 JSON 格式的文件,其中包含来自原始 PDF 文件的信息。在后处理期间,提取的数据存储在 Amazon DynamoDB 中,您可以使用亚马逊中的分析和可视化来生成业务见解 QuickSight。

本指南分四个阶段提供无服务器的自动化 PDF 文件分析解决方案:

该指南使用 Amazon S3 存储原始数据和经过处理的数据,AWS Lambda用于计算,使用 Amazon Textract 从 PDF 文件中提取内容,使用 DynamoDB 存储处理过的数据,使用 Amazon QuickSight 进行分析和可视化。本指南适用于希望自动提取信息并从 PDF 文件中生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。

有针对性的业务成果

在设计了用于分析 PDF 文件的自动化解决方案后,您应该预计会得到以下三个结果AWS Cloud:

  • 使用自动解决方案自动大规模处理来自多个 PDF 文件的原始数据,该解决方案在新数据可用时会刷新。

  • 下游建模和分析应用程序(例如,Amazon 中的 ML 建模 SageMaker)可以访问提取的 PDF 文件内容。

  • 数据仪表板向您的亚马逊最终用户显示所有 PDF 文件内容 QuickSight。