AWS Data Pipeline は、新規顧客には利用できなくなりました。の既存のお客様は、通常どおりサービスを AWS Data Pipeline 引き続き使用できます。詳細はこちら
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Task Runnerを使用した既存のリソースでの作業の実行
Amazon EC2インスタンス、物理サーバー、ワークステーションなどのお客様が管理するコンピューティングリソースにTask Runnerをインストールできます。Task Runner は、 AWS Data Pipeline ウェブサービスと通信できる場合に限り、互換性のあるハードウェアまたはオペレーティングシステムのどこにでもインストールできます。
このアプローチは、例えば、 AWS Data Pipeline を使用して組織のファイアウォール内に保存されているデータを処理したい場合に便利です。ローカルネットワークのサーバーに Task Runner をインストールすることで、ローカルデータベースに安全にアクセスし、 AWS Data Pipeline 次のタスクを実行するようにポーリングできます。がパイプラインの処理 AWS Data Pipeline を終了するか削除すると、手動でシャットダウンするまで、Task Runner インスタンスはコンピューティングリソースで実行されたままになります。Task Runnerのログはパイプライン実行の完了後も維持されます。
お客様が管理するリソースでTask Runnerを使用するには、まずTask Runnerをダウンロードし、このセクションの手順に従って、お客様のコンピューティングリソースにインストールします。
注記
Task RunnerはLinux、UNIX、またはmacOSにのみインストールできます。Task RunnerはWindowsオペレーティングシステムではサポートされていません。
Task Runner 2.0を使用するのに必要なJavaの最小バージョンは1.7です。
処理する必要のあるパイプラインのアクティビティに、インストールしたTask Runnerを接続するには、オブジェクトにworkerGroup
フィールドを追加し、そのワーカーグループの値をポーリングするようにTask Runnerを設定します。そのためには、Task RunnerのJARファイルを実行するときに、パラメータとしてワーカーグループ文字列(例えば、--workerGroup=wg-12345
)を渡します。

{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }
Task Runnerのインストール
このセクションでは、Task Runnerをインストールして設定する方法とその前提条件について説明します。インストールは、手動の簡単なプロセスです。
Task Runnerをインストールするには
-
Task RunnerはJavaバージョン1.6または1.8を必要とします。Javaがインストールされているかどうか、およびどのバージョンが実行されているかを確認するには、次のコマンドを使用します。
java -version
コンピューターにJava 1.6または1.8がインストールされていない場合は、http://www.oracle.com/technetwork/java/index.html
からこれらのいずれかのバージョンをダウンロードします。Javaをダウンロードしてインストールし、次のステップに進みます。 -
TaskRunner-1.0.jar
をhttps://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jarからダウンロードしてから、ターゲットコンピューティングリソースのフォルダーにコピーします。 EmrActivity
タスクを実行するAmazon EMRクラスターでは、そのクラスターのマスターノードにTask Runnerをインストールします。 -
Task Runner を使用して AWS Data Pipeline ウェブサービスに接続してコマンドを処理する場合、ユーザーはデータパイプラインを作成または管理する権限を持つロールにプログラムでアクセスする必要があります。詳細については、「プログラムによるアクセス権を付与する」を参照してください。
-
Task Runner は HTTPS を使用して AWS Data Pipeline ウェブサービスに接続します。 AWS リソースを使用している場合は、適切なルーティングテーブルとサブネット ACL で HTTPS が有効になっていることを確認します。ファイアウォールまたはプロキシを使用している場合は、ポート443が開いていることを確認します。
Task Runnerの起動
Task Runnerをインストールしたディレクトリに設定されている新しいコマンドプロンプトウィンドウで次のコマンドを実行してTask Runnerを起動します。
java -jar TaskRunner-1.0.jar --config ~/
credentials.json
--workerGroup=myWorkerGroup
--region=MyRegion
--logUri=s3://mybucket/foldername
--config
オプションは認証情報ファイルを指します。
--workerGroup
オプションはワーカーグループの名前を指定します。これは、パイプラインで指定されている処理対象のタスクの値と同じである必要があります。
--region
オプションは、実行するタスクをプルする対象のサービスリージョンを指定します。
--logUri
オプションは、圧縮済みログをAmazon S3の場所にプッシュするために使用されます。
Task Runnerは、アクティブなとき、ログファイルが書き込まれる場所へのパスをターミナルウィンドウに出力します。以下に例を示します。
Logging to /Computer_Name/.../output/logs
Task Runnerはログインシェルから切り離されて実行される必要があります。ターミナルアプリケーションを使用してコンピューターに接続している場合は、nohupやscreenのようなユーティリティを使用して、ログアウト時にTask Runnerアプリケーションが終了しないようにする必要があります。コマンドラインオプションの詳細については、「Task Runnerの設定オプション」を参照してください。
Task Runnerのログの確認
Task Runnerが動作していることを確認する最も簡単な方法は、ログファイルを書き込んでいるかどうかをチェックすることです。Task Runnerは、Task Runnerがインストールされているディレクトリの下にあるディレクトリoutput/logs
に時間ごとのログファイルを書き込みます。ファイル名はTask Runner.log.YYYY-MM-DD-HH
となり、HHの値は00から23(UDT)になります。ストレージ領域を節約するため、8時間前より古いログファイルはGZipで圧縮されます。