パイプライン定義
パイプライン定義では、どのようにビジネスロジックを AWS Data Pipeline に伝えるかを指定します。これには、以下の情報が含まれています。
-
データソースの名前、場所、形式
-
データを変換するアクティビティ
-
これらのアクティビティのスケジュール
-
アクティビティおよび前提条件を実行するリソース
-
アクティビティをスケジュールする前に完了する必要がある前提条件
-
パイプライン実行に伴うステータスの更新を警告する方法
パイプラインの定義から、AWS Data Pipeline は、タスクの決定、タスクのスケジュール、および Task Runner へのタスクの割り当てを行います。タスクが正常に完了していない場合、AWS Data Pipeline は指定された手順に従ってタスクを再試行し、必要に応じて、他の Task Runner にタスクを再割り当てします。タスクが繰り返し失敗する場合は、通知するようにパイプラインを設定できます。
例えば、パイプライン定義で、アプリケーションによって生成されたログファイルを、2013 年の各月に Amazon S3 バケットにアーカイブすることを指定できます。AWS Data Pipeline は、月の日数が 30 日、31 日、28 日、29 日のいずれであるかに関係なく、それぞれが 1 か月分のデータをコピーする 12 個のタスクを作成します。
パイプライン定義は、次のような方法で作成できます。
-
AWS Data Pipeline コンソールを使用することによってグラフィカルに作成する
-
コマンドラインインターフェイスで使用される形式の JSON ファイルを記述することによってテキストで作成する
-
いずれかの AWS SDK または AWS Data Pipeline API でウェブサービスを呼び出すことによってプログラムで作成する
パイプライン定義には、次のタイプのコンポーネントを含めることができます。
パイプラインコンポーネント
詳細については、「パイプライン定義ファイルの構文」を参照してください。