Task Runnerの操作 - AWS Data Pipeline

Task Runnerの操作

Task Runnerは、AWS Data Pipelineをポーリングしてスケジュールされているタスクを検出し、Amazon EC2インスタンス、Amazon EMRクラスター、またはその他のコンピューティングリソースで実行すると同時にそのステータスをレポートするタスクエージェントアプリケーションです。アプリケーションによっては、以下を行うことができます。

  • 1つ以上のTask Runnerアプリケーションのインストールおよび管理をAWS Data Pipelineに許可する。パイプラインがアクティブ化されると、アクティビティのrunsOnフィールドで参照されているデフォルトのEc2InstanceオブジェクトまたはEmrClusterオブジェクトが自動的に作成されます。AWS Data PipelineによってEC2インスタンスまたはEMRクラスターのマスターノードにTask Runnerがインストールされます。このパターンでは、AWS Data Pipelineがお客様に代わってインスタンス管理またはクラスター管理のほとんどを行うことができます。

  • パイプラインの全体または一部を、お客様が管理するリソースで実行する。使用可能なリソースには、長時間実行されているAmazon EC2インスタンス、Amazon EMRクラスター、物理サーバーなどがあります。タスクランナー(Task Runnerか、お客様のデバイスにあるカスタムタスクエージェント)は、AWS Data Pipelineウェブサービスとの通信が可能であればどこにでもインストールできます。このパターンでは、どのリソースが使用されどのように管理されるかをお客様がほぼ完全に制御できますが、Task Runnerは手動でインストールおよび設定する必要があります。これを行うには、「Task Runnerを使用した既存のリソースでの作業の実行」に記載されている手順を使用します。