将 Amazon EMR 与 Hadoop 流式处理结合使用来处理数据

您可以使用 AWS Data Pipeline 来管理您的 Amazon EMR 集群。 AWS Data Pipeline 您可以使用来指定在启动集群之前必须满足的先决条件（例如，确保将今天的数据上传到 Amazon S3）、重复运行集群的时间表以及要使用的集群配置。以下教程将引导您完成启动简单集群的过程。

在本教程中，您将为简单 Amazon EMR 集群创建一个管道来运行由 Amazon EMR 提供的预先存在的 Hadoop 流式处理作业，并在任务成功完成后发送 Amazon SNS 通知。您可以使用提供的 Amazon EMR 集群资源来完成此 AWS Data Pipeline 任务。该示例应用程序被调用 WordCount，也可以从 Amazon EMR 控制台手动运行。请注意，代表您生成的 AWS Data Pipeline 集群会显示在 Amazon EMR 控制台中，并向您的 AWS 账户收费。