使用EMR带有 Hadoop 流媒体的 Amazon 处理数据 - AWS Data Pipeline

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用EMR带有 Hadoop 流媒体的 Amazon 处理数据

您可以使用 AWS Data Pipeline 来管理您的 Amazon EMR 集群。 AWS Data Pipeline 您可以使用来指定在启动集群之前必须满足的先决条件(例如,确保将今天的数据上传到 Amazon S3)、重复运行集群的时间表以及要使用的集群配置。以下教程将引导您完成启动简单集群的过程。

在本教程中,您将为一个简单的 Amazon EMR 集群创建一个管道,用于运行亚马逊提供的预先存在的 Hadoop Streaming 任务,EMR并在任务成功完成后SNS发送亚马逊通知。您可以使用提供的 Amazon EMR 集群资源 AWS Data Pipeline 来完成此任务。该示例应用程序被调用 WordCount,也可以从 Amazon EMR 控制台手动运行。请注意,代表您生成的 AWS Data Pipeline 集群会显示在 Amazon EMR 控制台中,并计入您的AWS账户。

管道对象

管道使用以下对象:

EmrActivity

定义要在管道中执行的工作(运行亚马逊提供的预先存在的 Hadoop Streaming 作业)。EMR

EmrCluster

AWS Data Pipeline 用于执行此活动的资源。

集群是一组 Amazon EC2 实例。 AWS Data Pipeline 启动集群,然后在任务完成后将其终止。

计划

此活动的开始日期、时间和持续时间。您可以选择指定结束日期和时间。

SnsAlarm

任务成功完成后,向您指定的主题发送 Amazon SNS 通知。