パイプライン定義 - AWS Data Pipeline

パイプライン定義

パイプライン定義では、どのようにビジネスロジックを AWS Data Pipeline に伝えるかを指定します。これには、以下の情報が含まれています。

  • データソースの名前、場所、形式

  • データを変換するアクティビティ

  • これらのアクティビティのスケジュール

  • アクティビティおよび前提条件を実行するリソース

  • アクティビティをスケジュールする前に完了する必要がある前提条件

  • パイプライン実行に伴うステータスの更新を警告する方法

パイプラインの定義から、AWS Data Pipeline は、タスクの決定、タスクのスケジュール、および Task Runner へのタスクの割り当てを行います。タスクが正常に完了していない場合、AWS Data Pipeline は指定された手順に従ってタスクを再試行し、必要に応じて、他の Task Runner にタスクを再割り当てします。タスクが繰り返し失敗する場合は、通知するようにパイプラインを設定できます。

例えば、パイプライン定義で、アプリケーションによって生成されたログファイルを、2013 年の各月に Amazon S3 バケットにアーカイブすることを指定できます。AWS Data Pipeline は、月の日数が 30 日、31 日、28 日、29 日のいずれであるかに関係なく、それぞれが 1 か月分のデータをコピーする 12 個のタスクを作成します。

パイプライン定義は、次のような方法で作成できます。

  • AWS Data Pipeline コンソールを使用することによってグラフィカルに作成する

  • コマンドラインインターフェイスで使用される形式の JSON ファイルを記述することによってテキストで作成する

  • いずれかの AWS SDK または AWS Data Pipeline API でウェブサービスを呼び出すことによってプログラムで作成する

パイプライン定義には、次のタイプのコンポーネントを含めることができます。

パイプラインコンポーネント
データノード

タスクの入力データの場所または出力データが保存される場所。

アクティビティ

コンピューティングリソースと通常、入出力データノードを使用して、スケジュールに従って実行する作業の定義。

前提条件

アクションを実行する前に true である必要がある条件ステートメント。

リソース

パイプラインで定義する作業を実行するコンピューティングリソース。

アクション

アクティビティの失敗など、指定された条件が満たされた場合にトリガーされるアクション。

詳細については、「パイプライン定義ファイルの構文」を参照してください。