设计用于分析 PDF 文件的自动化解决方案 AWS Cloud - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设计用于分析 PDF 文件的自动化解决方案 AWS Cloud

贾天霞和张燕燕,Amazon Web Services ()AWS

2021 年 10 月文档历史记录

Organizations 经常使用 PDF 文件来存储和传输不同的数据类型,包括文本、表格和表单。但是,自动聚合和分析来自不同 PDF 文件的数据可能很困难。例如,组织的业务应用程序可能会定期采集格式相同的不同 PDF 文件,但用户必须单独打开和阅读这些文件。这意味着用户发现很难从这些 PDF 文件中生成有用的见解,必须手动提取相关数据并使用第三方工具进行进一步分析。

在亚马逊 Web Services (AWS) 云上,Amazon Textrac t 会自动从 PDF 文件中提取信息(例如打印的文本、表单和表格),并生成包含原始 PDF 文件信息的 JSON 格式的文件。在后期处理过程中,提取的数据存储在 Amazon DynamoDB 中,您可以使用亚马逊中的分析和可视化来生成业务见解。 QuickSight

本指南分四个阶段提供无服务器自动化 PDF 文件分析解决方案:

该指南使用 Amazon S3 存储原始数据和经过处理的数据,AWS Lambda用于计算,使用 Amazon Textr act 来从 PDF 文件中提取内容,使用 Dynam oDB 存储处理过的数据,使用亚马逊存储分析和可视化。 QuickSight本指南适用于想要自动从 PDF 文件中提取信息并生成见解的数据科学家、机器学习 (ML) 工程师和解决方案架构师。

目标业务成果

在设计了用于分析 PDF 文件的自动化解决方案后,您应该期望获得以下三个结果 AWS Cloud:

  • 使用自动解决方案,自动处理来自多个 PDF 文件的原始数据,该解决方案会在有新数据可用时刷新。

  • 下游建模和分析应用程序(例如 Amazon A SageMaker I 中的机器学习建模)可以访问提取的 PDF 文件内容。

  • 数据仪表板可在中向您的最终用户显示所有 PDF 文件内容 QuickSight。