AWS Data Pipeline
開発者ガイド (API バージョン 2012-10-29)

Task Runner の操作

Task Runner は、AWS Data Pipeline をポーリングしてスケジュールされているタスクを検出し、Amazon EC2 インスタンス、Amazon EMR クラスター、またはその他のコンピューティングリソースで実行すると同時にそのステータスをレポートするタスクエージェントアプリケーションです。アプリケーションによっては、以下を行うことができます。

  • 1 つ以上の Task Runner アプリケーションのインストールおよび管理を AWS Data Pipeline に許可する。パイプラインがアクティブ化されると、アクティビティの runsOn フィールドで参照されているデフォルトの Ec2Instance オブジェクトまたは EmrCluster オブジェクトが自動的に作成されます。AWS Data Pipeline によって EC2 インスタンスまたは EMR クラスターのマスターノードに Task Runner がインストールされます。このパターンでは、AWS Data Pipeline がお客様に代わってインスタンス管理またはクラスター管理のほとんどを行うことができます。

  • パイプラインの全体または一部を、お客様が管理するリソースで実行する。使用可能なリソースには、長時間実行されている Amazon EC2 インスタンス、Amazon EMR クラスター、物理サーバーなどがあります。タスクランナー(Task Runner か、お客様のデバイスにあるカスタムタスクエージェント)は、AWS Data Pipeline ウェブサービスとの通信が可能であればどこにでもインストールできます。このパターンでは、どのリソースが使用されどのように管理されるかをお客様がほぼ完全に制御できますが、Task Runner は手動でインストールおよび設定する必要があります。これを行うには、「Task Runner を使用した既存のリソースでの作業の実行」に記載されている手順を使用します。