Hadoop ストリーミングで Amazon EMR を使用したデータの処理

AWS Data Pipeline を使用して Amazon EMR クラスターを管理できます。 AWS Data Pipeline を使用すると、クラスターの起動前に満たす必要がある前提条件 (例えば、今日のデータが Amazon S3 にアップロードされていることを確認する）、クラスターを繰り返し実行するスケジュール、使用するクラスター設定を指定できます。以下のチュートリアルでは、簡単なクラスターの起動について順を追って説明します。

このチュートリアルでは、Amazon EMR によって提供される既存の Hadoop ストリーミングジョブを実行し、タスクが正常に完了したときに Amazon SNS 通知を送信する、シンプルな Amazon EMR クラスターのパイプラインを作成します。このタスク AWS Data Pipeline には、が提供する Amazon EMR クラスターリソースを使用します。サンプルアプリケーションは、WordCount と呼ばれ、Amazon EMR コンソールから手動で実行することもできます。ユーザー AWS Data Pipeline に代わってによって生成されたクラスターは Amazon EMR コンソールに表示され、AWS アカウントに請求されることに注意してください。