AWS Data Pipeline は新規顧客には利用できなくなりました。の既存のお客様は、通常どおりサービスを AWS Data Pipeline 引き続き使用できます。詳細はこちら
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Hadoop ストリーミングで Amazon EMR を使用したデータの処理
AWS Data Pipeline を使用して Amazon EMR クラスターを管理できます。 AWS Data Pipeline を使用すると、クラスターの起動前に満たす必要がある前提条件 (例えば、今日のデータが Amazon S3 にアップロードされていることを確認する)、クラスターを繰り返し実行するスケジュール、使用するクラスター設定を指定できます。以下のチュートリアルでは、簡単なクラスターの起動について順を追って説明します。
このチュートリアルでは、Amazon EMR によって提供される既存の Hadoop ストリーミングジョブを実行し、タスクが正常に完了したときに Amazon SNS 通知を送信する、シンプルな Amazon EMR クラスターのパイプラインを作成します。このタスク AWS Data Pipeline には、 が提供する Amazon EMR クラスターリソースを使用します。サンプルアプリケーションは、WordCount と呼ばれ、Amazon EMR コンソールから手動で実行することもできます。ユーザー AWS Data Pipeline に代わって によって生成されたクラスターは Amazon EMR コンソールに表示され、AWS アカウントに請求されることに注意してください。
パイプラインオブジェクト
このパイプラインでは以下のオブジェクトを使用します。
- EmrActivity
-
パイプラインで実行する作業を定義します (Amazon EMR で提供される既存の Hadoop ストリーミングジョブを実行します)。
- EmrCluster
-
リソース AWS Data Pipeline は を使用してこのアクティビティを実行します。
クラスターは、Amazon EC2 インスタンスのセットです。 は、クラスター AWS Data Pipeline を起動し、タスクの完了後にクラスターを終了します。
- スケジュール
-
このアクティビティの開始日、時刻、および期間。オプションで終了日時を指定できます。
- SnsAlarm
-
タスクが正常に終了した後、指定したトピックに Amazon SNS 通知を送信します。