使用 AWS Glue 爬虫查询大型数据集

聚焦模式

使用 AWS Glue 爬虫查询大型数据集 - AWS Step Functions

此示例项目演示了如何在 Amazon S3 中提取大型数据集并通过 AWS Glue Crawlers 对其进行分区，然后对该分区执行 Amazon Athena 查询。

在此项目中，Step Functions 状态机调用一个 AWS Glue 抓取程序，该爬虫在 Amazon S3 中对大型数据集进行分区。 AWS Glue 抓取器返回成功消息后，工作流程将对该分区执行 Athena 查询。成功执行查询后，将向 Amazon SNS 主题发送到 Amazon SNS 通知。

第 1 步：创建状态机

打开 Step Functions 控制台，然后选择创建状态机。
选择 “从模板创建”，然后找到相关的入门模板。选择下一步以继续。
选择如何使用模板：
1. 运行演示 — 创建只读状态机。审核后，您可以创建工作流程和所有相关资源。
2. 在此基础上构建 — 提供可编辑的工作流程定义，您可以使用自己的资源对其进行查看、自定义和部署。（不会自动创建函数或队列等相关资源。）
选择使用模板继续进行选择。

注意
部署到您的账户的服务将收取标准费用。

步骤 2：运行演示状态机

如果您选择 “运行演示” 选项，则所有相关资源都将部署并准备好运行。如果您选择了 B uild on it 选项，则可能需要先设置占位符值并创建其他资源，然后才能运行自定义工作流程。

选择 “部署并运行”。
等待 AWS CloudFormation 堆栈部署。这一过程耗时最多 10 分钟。
出现开始执行选项后，查看输入并选择开始执行。

恭喜您！

你现在应该有一个状态机的运行演示。您可以在图表视图中选择状态来查看输入、输出、变量、定义和事件。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

文档惯例

使用 Athena 按顺序并行执行查询

将数据保持为最新状态

下一主题：

将数据保持为最新状态

上一主题：

使用 Athena 按顺序并行执行查询

需要帮助吗？

本页内容

选择您的 Cookie 首选项

自定义 Cookie 首选项

关键

性能

功能

广告

无法保存 Cookie 首选项