将 Amazon EMR 与 Hadoop 流式处理结合使用来处理数据 - AWS Data Pipeline

将 Amazon EMR 与 Hadoop 流式处理结合使用来处理数据

您可以使用 AWS Data Pipeline 管理您的 Amazon EMR 集群。利用 AWS Data Pipeline,您可以指定先决条件(必须先满足该先决条件,然后才能启动集群;例如,确保将今天的数据上传到 Amazon S3)、重复运行集群的计划以及要使用的集群配置。以下教程将引导您完成启动简单集群的过程。

在本教程中,您将为简单 Amazon EMR 集群创建一个管道来运行由 Amazon EMR 提供的预先存在的 Hadoop 流式处理作业,并在任务成功完成后发送 Amazon SNS 通知。您为此任务使用由 AWS Data Pipeline 提供的 Amazon EMR 集群资源。该示例应用程序称作 WordCount,也可从 Amazon EMR 控制台手动运行它。请注意,由 AWS Data Pipeline 代表您生成的集群将显示在 Amazon EMR 控制台中并对您的 Amazon Web Services account 计费。

管道对象

管道使用以下对象:

EmrActivity

定义要在管道中执行的工作(运行由 Amazon EMR 提供的预先存在的 Hadoop 流式处理作业)。

EmrCluster

AWS Data Pipeline 用来执行此活动的资源。

集群是一组 Amazon EC2 实例。AWS Data Pipeline 启动集群,然后在任务完成后终止集群。

计划

此活动的开始日期、时间和持续时间。您可以选择指定结束日期和时间。

SnsAlarm

在任务成功完成后,向您指定的主题发送 Amazon SNS 通知。