选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

使用 AWS Glue 爬虫查询大型数据集

聚焦模式
使用 AWS Glue 爬虫查询大型数据集 - AWS Step Functions

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

此示例项目演示了如何在 Amazon S3 中提取大型数据集并通过 AWS Glue Crawlers 对其进行分区,然后对该分区执行 Amazon Athena 查询。

在此项目中,Step Functions 状态机调用一个 AWS Glue 抓取程序,该爬虫在 Amazon S3 中对大型数据集进行分区。 AWS Glue 抓取器返回成功消息后,工作流程将对该分区执行 Athena 查询。成功执行查询后,将向 Amazon SNS 主题发送到 Amazon SNS 通知。

第 1 步:创建状态机

  1. 打开 Step Functions 控制台,然后选择创建状态机

  2. 选择 “从模板创建”,然后找到相关的入门模板。选择下一步以继续。

  3. 选择如何使用模板:

    1. 运行演示 — 创建只读状态机。审核后,您可以创建工作流程和所有相关资源。

    2. 在此基础上构建 — 提供可编辑的工作流程定义,您可以使用自己的资源对其进行查看、自定义和部署。(不会自动创建函数或队列等相关资源。)

  4. 选择使用模板继续进行选择。

    注意

    部署到您的账户的服务将收取标准费用。

步骤 2:运行演示状态机

如果您选择 “运行演示” 选项,则所有相关资源都将部署并准备好运行。如果您选择了 B uild on it 选项,则可能需要先设置占位符值并创建其他资源,然后才能运行自定义工作流程。

  1. 选择 “部署并运行”

  2. 等待 AWS CloudFormation 堆栈部署。这一过程耗时最多 10 分钟。

  3. 出现开始执行选项后,查看输入并选择开始执行

恭喜您!

你现在应该有一个状态机的运行演示。您可以在图表视图中选择状态来查看输入、输出、变量、定义和事件。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。