Hadoop ストリーミングで Amazon EMR を使用したデータの処理
Amazon EMR クラスターは、AWS Data Pipeline を使用して管理できます。AWS Data Pipeline では、クラスターが起動される前に満たされている必要がある前提条件 (例えば、当日のデータが Amazon S3 にアップロード済みであることの確認)、繰り返し実行されるクラスターのスケジュール、および使用するクラスター設定を指定できます。以下のチュートリアルでは、簡単なクラスターの起動について順を追って説明します。
このチュートリアルでは、Amazon EMR によって提供される既存の Hadoop ストリーミングジョブを実行し、タスクが正常に完了したときに Amazon SNS 通知を送信する、シンプルな Amazon EMR クラスターのパイプラインを作成します。AWS Data Pipeline によってこのタスク用に提供されている Amazon EMR クラスターリソースを使用します。サンプルアプリケーションは、WordCount と呼ばれ、Amazon EMR コンソールから手動で実行することもできます。AWS Data Pipeline によって生成されたクラスターは、Amazon EMR コンソールに表示され、AWS アカウントに課金されます。
パイプラインオブジェクト
このパイプラインでは以下のオブジェクトを使用します。
- EmrActivity
-
パイプラインで実行する作業を定義します (Amazon EMR で提供される既存の Hadoop ストリーミングジョブを実行します)。
- EmrCluster
-
AWS Data Pipeline がこのアクティビティの実行に使用するリソース。
クラスターとは、一連の Amazon EC2 インスタンスです。AWS Data Pipeline は、自動的にクラスターを起動し、タスクが終了したらクラスターを終了します。
- スケジュール
-
このアクティビティの開始日、時刻、および期間。オプションで終了日時を指定できます。
- SnsAlarm
-
タスクが正常に終了した後、指定したトピックに Amazon SNS 通知を送信します。