分析阶段

通过处理 PDF 文件，您可以提取可用于进一步处理和分析的内容。例如，您可以使用每日运营报告的成本字段来识别成本趋势，也可以通过汇总业务运营的关键绩效指标 (KPIs) 来生成见解。您还可以将提取的内容与其他数据源（包括数据湖、数据仓库、第三方数据或客户关系管理 (CRM) 数据）相结合，以执行深入的业务分析。

亚马逊 QuickSight是一项无服务器商业智能服务，它连接到包含您提取的 PDF 文件数据的亚马逊简单存储服务 (Amazon S3) Service 存储桶。然后，您的业务分析师可以创建一个仪表板，用于分析、可视化并直接从 S3 存储桶中的 JSON 文件生成见解。控制面板连接到 S3 存储桶，并在处理新的 PDF 文件后自动更新。您还可以与不同的用户共享仪表板，用户也可以订阅仪表板以在移动设备上进行查看。有关这方面的更多信息，请参阅 Amazon QuickSight 文档中的使用 Amazon S3 文件创建数据集。

大多数 PDF 文件还在表单和表格中或自由文本段落中包含富文本内容。提取文本内容后，富文本内容可供其他可以处理自然语言处理 (NLP) AWS 的人工智能和机器学习 (AI/ML) 服务使用，例如Amazon Comprehend或Amazon Translate。您还可以使用 Amazon Kendra 对从 PDF 文件的大型数据库中提取的文档进行索引和搜索。

您的数据科学家和机器学习工程师还可以使用 Amazon SageMaker AI 直接访问 S3 存储桶或 Amazon DynamoDB 表中提取的数据，然后实施高级机器学习建模和预测。

分析阶段的最佳实践

您可以使用以下两种最佳实践来确保分析阶段的成功：

创建清单文件以使用 S3 存储桶作为其数据源 QuickSight。有关这方面的更多信息，请参阅 QuickSight 文档中的使用您自己的 Amazon S3 数据创建分析。
自动更新您的数据集以捕获添加到 Amazon S3 的任何新数据并刷新控制面板。有关这方面的更多信息，请参阅 QuickSight 文档中的按计划刷新数据集。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

数据存储阶段

常见问题解答