Hadoop ストリーミングで Amazon EMR を使用したデータの処理 - AWS Data Pipeline

Hadoop ストリーミングで Amazon EMR を使用したデータの処理

Amazon EMR クラスターは、AWS Data Pipeline を使用して管理できます。AWS Data Pipeline では、クラスターが起動される前に満たされている必要がある前提条件 (例えば、当日のデータが Amazon S3 にアップロード済みであることの確認)、繰り返し実行されるクラスターのスケジュール、および使用するクラスター設定を指定できます。以下のチュートリアルでは、簡単なクラスターの起動について順を追って説明します。

このチュートリアルでは、Amazon EMR によって提供される既存の Hadoop ストリーミングジョブを実行し、タスクが正常に完了したときに Amazon SNS 通知を送信する、シンプルな Amazon EMR クラスターのパイプラインを作成します。AWS Data Pipeline によってこのタスク用に提供されている Amazon EMR クラスターリソースを使用します。サンプルアプリケーションは、WordCount と呼ばれ、Amazon EMR コンソールから手動で実行することもできます。AWS Data Pipeline によって生成されたクラスターは、Amazon EMR コンソールに表示され、AWS アカウントに課金されます。

パイプラインオブジェクト

このパイプラインでは以下のオブジェクトを使用します。

EmrActivity

パイプラインで実行する作業を定義します (Amazon EMR で提供される既存の Hadoop ストリーミングジョブを実行します)。

EmrCluster

AWS Data Pipeline がこのアクティビティの実行に使用するリソース。

クラスターとは、一連の Amazon EC2 インスタンスです。AWS Data Pipeline は、自動的にクラスターを起動し、タスクが終了したらクラスターを終了します。

スケジュール

このアクティビティの開始日、時刻、および期間。オプションで終了日時を指定できます。

SnsAlarm

タスクが正常に終了した後、指定したトピックに Amazon SNS 通知を送信します。