AWS Data Pipeline でクラスターを自動的に繰り返す - Amazon EMR

AWS Data Pipeline でクラスターを自動的に繰り返す

AWS Data Pipeline は、データの移動と変換を自動化するサービスです。これを使用して入力データの Amazon S3 への移動をスケジュールし、クラスターを起動してそのデータを処理するようにスケジュールできます。たとえば、トラフィックログを記録するウェブサーバーがあるとします。トラフィックデータを分析するために毎週クラスターを実行する必要がある場合、AWS Data Pipeline を使用してそれらのクラスターをスケジュールできます。AWS Data Pipeline はデータ駆動型のワークフローであり、1 つのタスク (クラスターの起動) が別のタスク (入力データの Amazon S3 への移動) に依存する場合があります。また、強力な再試行機能もあります。

AWS Data Pipeline の詳細については、「AWS Data Pipeline デベロッパーガイド」、特に Amazon EMR に関するチュートリアルを参照してください。