分析阶段 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

分析阶段

通过处理 PDF 文件,您可以提取可用于进一步处理和分析的内容。例如,您可以使用每日运营报告的成本字段来识别成本趋势,也可以通过汇总业务运营的关键绩效指标 (KPIs) 来生成见解。您还可以将提取的内容与其他数据源(包括数据湖、数据仓库、第三方数据或客户关系管理 (CRM) 数据)相结合,以执行深入的业务分析。

亚马逊 QuickSight是一项无服务器商业智能服务,它连接到包含您提取的 PDF 文件数据的亚马逊简单存储服务 (Amazon S3) Service 存储桶。然后,您的业务分析师可以创建一个仪表板,用于分析、可视化并直接从 S3 存储桶中的 JSON 文件生成见解。控制面板连接到 S3 存储桶,并在处理新的 PDF 文件后自动更新。您还可以与不同的用户共享仪表板,用户也可以订阅仪表板以在移动设备上进行查看。有关这方面的更多信息,请参阅 Amazon QuickSight 文档中的使用 Amazon S3 文件创建数据集

大多数 PDF 文件还在表单和表格中或自由文本段落中包含富文本内容。提取文本内容后,富文本内容可供其他可以处理自然语言处理 (NLP) AWS 的人工智能和机器学习 (AI/ML) 服务使用,例如Amazon Comprehend或Amazon Translate。您还可以使用 Amazon Kendra 对从 PDF 文件的大型数据库中提取的文档进行索引和搜索。

您的数据科学家和机器学习工程师还可以使用 Amazon SageMaker AI 直接访问 S3 存储桶或 Amazon DynamoDB 表中提取的数据,然后实施高级机器学习建模和预测。

分析阶段的最佳实践

您可以使用以下两种最佳实践来确保分析阶段的成功: