AWS Data Pipeline
開発者ガイド (API バージョン 2012-10-29)

AWS Data Pipeline とは

AWS Data Pipeline は、データの移動と変換を自動化するために使用できるウェブサービスです。AWS Data Pipeline を使用すると、データ駆動型のワークフローを定義することができるので、以前のタスクの正常な完了を基にタスクを実行できます。データ変換のパラメータを定義すると、設定したロジックが AWS Data Pipeline によって適用されます。

AWS Data Pipeline では、以下のコンポーネントの連携によってデータを管理します。

  • パイプライン定義とは、データ管理のビジネスロジックを指定したものです。詳細については、「パイプライン定義ファイルの構文」を参照してください。

  • パイプラインは、タスクをスケジュールして実行するために、Amazon EC2 インスタンスを作成して定義済みの作業アクティビティを実行します。パイプラインにパイプライン定義をアップロードし、パイプラインをアクティブ化します。実行中のパイプラインのパイプライン定義を編集し、有効にするパイプラインを再度アクティブ化することができます。パイプラインを非アクティブ化し、データソースを修正して、パイプラインを再度アクティブ化することができます。パイプラインの処理が終了したら、パイプラインを削除できます。

  • Task Runner は、タスクをポーリングし、それらのタスクを実行します。たとえば、Task Runner はログファイルを Amazon S3 にコピーし、Amazon EMR クラスターを起動できます。Task Runner は、パイプラインの定義によって作成されたリソースに自動的にインストールおよび実行されます。カスタム Task Runner アプリケーションを作成することも、AWS Data Pipeline から提供される Task Runner アプリケーションを使用することもできます。詳細については、「Task Runner」を参照してください。

たとえば、AWS Data Pipeline を使用して、ウェブサーバーのログを毎日 Amazon Simple Storage Service (Amazon S3) にアーカイブし、週に 1 回、これらのログに対して Amazon EMR (Amazon EMR) クラスターを実行して、トラフィックレポートを生成することができます。AWS Data Pipeline では、データをコピーする毎日のタスクと、Amazon EMR クラスターを起動する毎週のタスクがスケジュールされます。また、AWS Data Pipeline ではログのアップロードに予期しない遅延が発生した場合でも、Amazon EMR で最終日のデータが Amazon S3 にアップロードされるまで待ってから分析が開始されます。


            AWS Data Pipeline の機能概要

AWS Data Pipeline へのアクセス

次のインターフェイスのいずれかを使用して、パイプラインの作成、アクセス、管理を行うことができます。

  • AWS マネジメントコンソール — AWS Data Pipeline へのアクセスに使用するウェブインターフェイスを提供します。

  • AWS Command Line Interface (AWS CLI) — AWS Data Pipeline を含むさまざまな AWS のサービス用のコマンドを備えており、Windows、macOS、Linux でサポートされています。AWS CLI のインストールの詳細については、AWS Command Line Interface を参照してください。AWS Data Pipeline 用のコマンドのリストについては、datapipeline を参照してください。

  • AWS SDK — 言語固有の API を提供し、署名の計算、リクエストの再試行処理、エラー処理など、接続のさまざまな詳細を処理します。詳細については、AWS SDK を参照してください。

  • クエリ API — HTTPS リクエストを使用して呼び出す低レベル API を提供します。クエリ API の使用は、AWS Data Pipeline の最も直接的なアクセス方法ですが、リクエストに署名するハッシュの生成やエラー処理など、低レベルの詳細な作業をアプリケーションで処理する必要があります。詳細については、『AWS Data Pipeline API Reference』を参照してください。

料金表

Amazon Web Services では、お客様が利用された分のみのお支払いとなります。AWS Data Pipeline では、どのくらいの頻度でアクティビティおよび前提条件の実行がスケジュールされ、どこで実行されるかに基づいてパイプラインにお支払いいただきます。詳細については、「AWS Data Pipeline 料金表」を参照してください。

AWS アカウントを作成してから 12 か月未満の場合、無料利用枠を使用できます。無料利用枠には、1 か月あたり 3 つの低頻度の前提条件と 5 つの低頻度のアクティビティが無料で含まれています。詳細については、「AWS Free Tier」を参照してください。