本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
分析阶段
通过处理 PDF 文件,您可以提取可用于进一步处理和分析的内容。例如,您可以使用每日运营报告的成本字段来识别成本趋势,也可以通过汇总业务运营的关键绩效指标 (KPIs) 来生成见解。您还可以将提取的内容与其他数据源(包括数据湖、数据仓库、第三方数据或客户关系管理 (CRM) 数据)相结合,以执行深入的业务分析。
亚马逊 QuickSight是一项无服务器商业智能服务,它连接到包含您提取的 PDF 文件数据的亚马逊简单存储服务 (Amazon S3) Service 存储桶。然后,您的业务分析师可以创建一个仪表板,用于分析、可视化并直接从 S3 存储桶中的 JSON 文件生成见解。控制面板连接到 S3 存储桶,并在处理新的 PDF 文件后自动更新。您还可以与不同的用户共享仪表板,用户也可以订阅仪表板以在移动设备上进行查看。有关这方面的更多信息,请参阅 Amazon QuickSight 文档中的使用 Amazon S3 文件创建数据集。
大多数 PDF 文件还在表单和表格中或自由文本段落中包含富文本内容。提取文本内容后,富文本内容可供其他可以处理自然语言处理 (NLP) AWS 的人工智能和机器学习 (AI/ML) 服务使用,例如Amazon Comprehend或Amazon Translate。您还可以使用 Amazon Kendra 对从 PDF 文件的大型数据库中提取的文档进行索引和搜索。
您的数据科学家和机器学习工程师还可以使用 Amazon SageMaker AI 直接访问 S3 存储桶或 Amazon DynamoDB 表中提取的数据,然后实施高级机器学习建模和预测。
分析阶段的最佳实践
您可以使用以下两种最佳实践来确保分析阶段的成功:
-
创建清单文件以使用 S3 存储桶作为其数据源 QuickSight。有关这方面的更多信息,请参阅 QuickSight 文档中的使用您自己的 Amazon S3 数据创建分析。
-
自动更新您的数据集以捕获添加到 Amazon S3 的任何新数据并刷新控制面板。有关这方面的更多信息,请参阅 QuickSight 文档中的按计划刷新数据集。