AWS Data Pipelineとは?
注記
AWS Data Pipelineサービスはメンテナンスモードであり、新機能やリージョンの拡張は予定されていません。詳細および既存のワークロードの移行方法については、「AWS Data Pipelineからのワークロードの移行」を参照してください。
AWS Data Pipelineは、データの移動と変換を自動化するために使用できるウェブサービスです。AWS Data Pipelineを使用すると、データ駆動型のワークフローを定義することができるので、以前のタスクの正常な完了を基にタスクを実行できます。データ変換のパラメータを定義すると、設定したロジックがAWS Data Pipelineによって適用されます。
AWS Data Pipelineでは、以下のコンポーネントの連携によってデータを管理します。
-
パイプライン定義とは、データ管理のビジネスロジックを指定したものです。詳細については、「パイプライン定義ファイルの構文」を参照してください。
-
パイプラインは、タスクをスケジュールして実行するために、Amazon EC2インスタンスを作成して定義済みの作業アクティビティを実行します。パイプラインにパイプライン定義をアップロードし、パイプラインをアクティブ化します。実行中のパイプラインのパイプライン定義を編集し、有効にするパイプラインを再度アクティブ化することができます。パイプラインを非アクティブ化し、データソースを修正して、パイプラインを再度アクティブ化することができます。パイプラインの処理が終了したら、パイプラインを削除できます。
-
Task Runnerは、タスクをポーリングし、それらのタスクを実行します。例えば、Task RunnerはAmazon S3にログファイルをコピーしてAmazon EMR クラスターを起動できます。Task Runnerは、パイプラインの定義によって作成されたリソースに自動的にインストールおよび実行されます。カスタムTask Runnerアプリケーションを作成することも、AWS Data Pipelineから提供されるTask Runnerアプリケーションを使用することもできます。詳細については、「Task Runner」を参照してください。
例えば、AWS Data Pipelineを使用して、ウェブサーバーのログを毎日Amazon Simple Storage Service (Amazon S3)にアーカイブし、週に1回、これらのログに対してAmazon EMR (Amazon EMR) クラスターを実行して、トラフィックレポートを生成することができます。AWS Data Pipelineでは、データをコピーする毎日のタスクと、Amazon EMR クラスターを起動する毎週のタスクがスケジュールされます。また、AWS Data Pipelineではログのアップロードに予期しない遅延が発生した場合でも、Amazon EMRで最終日のデータがAmazon S3にアップロードされるまで待ってから分析が開始されます。
AWS Data Pipelineへのアクセス
次のインターフェイスのいずれかを使用して、パイプラインの作成、アクセス、管理を行うことができます。
-
AWS Management Console–へAWS Data Pipelineのアクセスに使用できるウェブインターフェイスを提供します。
-
AWS Command Line Interface(AWS CLI)–AWS Data Pipelineを含むさまざまな AWSのサービス用のコマンドを備えており、Windows、macOS、Linuxでサポートされています。AWS CLIのインストールの詳細については、AWS Command Line Interface
を参照してください。AWS Data Pipeline 用のコマンドのリストについては、datapipelineを参照してください。 -
AWS SDK—言語固有のAPIを提供し、署名の計算、リクエストの再試行処理、エラー処理など、接続のさまざまな詳細を処理します。詳細については、AWS SDK
を参照してください。 -
クエリ API–HTTPSリクエストを使用して呼び出す低レベル APIを提供します。クエリ APIの使用は、AWS Data Pipelineの最も直接的なアクセス方法ですが、リクエストに署名するハッシュの生成やエラー処理など、低レベルの詳細な作業をアプリケーションで処理する必要があります。詳細については、「AWS Data PipelineAPIリファレンス」を参照してください。
料金
Amazon Web Servicesと併せて、使用した分に応じてお支払いください。AWS Data Pipelineでは、どのくらいの頻度でアクティビティおよび前提条件の実行がスケジュールされ、どこで実行されるかに基づいてパイプラインにお支払いいただきます。詳細については、「AWS Data Pipelineの料金
AWSアカウントを作成してから12か月未満の場合、無料利用枠を使用できます。無料利用枠には、1か月あたり3つの低頻度の前提条件と5つの低頻度のアクティビティが無料で含まれています。詳細については、「AWS無料利用枠