翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS Data Pipeline の概要
AWS Data Pipeline は、データの移動と変換を自動化するために使用できるウェブサービスです。AWS Data Pipeline を使用すると、データ駆動型のワークフローを定義することができるので、以前のタスクの正常な完了を基にタスクを実行できます。データ変換のパラメータを定義すると、設定したロジックが AWS Data Pipeline によって適用されます。
AWS Data Pipeline では、以下のコンポーネントの連携によってデータを管理します。
-
パイプライン定義とは、データ管理のビジネスロジックを指定したものです。詳細については、「パイプライン定義ファイルの構文」を参照してください。
-
パイプラインは、タスクをスケジュールして実行するために、Amazon EC2 インスタンスを作成して定義済みの作業アクティビティを実行します。パイプラインにパイプライン定義をアップロードし、パイプラインをアクティブ化します。実行中のパイプラインのパイプライン定義を編集し、有効にするパイプラインを再度アクティブ化することができます。パイプラインを非アクティブ化し、データソースを修正して、パイプラインを再度アクティブ化することができます。パイプラインの処理が終了したら、パイプラインを削除できます。
-
Task Runner は、タスクをポーリングし、それらのタスクを実行します。例えば、Task Runner は Amazon S3 にログファイルをコピーして Amazon EMR クラスターを起動できます。Task Runner は、パイプラインの定義によって作成されたリソースに自動的にインストールおよび実行されます。カスタム Task Runner アプリケーションを作成することも、AWS Data Pipeline から提供される Task Runner アプリケーションを使用することもできます。詳細については、「Task Runner」を参照してください。
例えば、AWS Data Pipeline を使用して、ウェブサーバーのログを毎日 Amazon Simple Storage Service (Amazon S3) にアーカイブし、週に 1 回、これらのログに対して Amazon EMR (Amazon EMR) クラスターを実行して、トラフィックレポートを生成することができます。AWS Data Pipeline では、データをコピーする毎日のタスクと、Amazon EMR クラスターを起動する毎週のタスクがスケジュールされます。また、AWS Data Pipeline ではログのアップロードに予期しない遅延が発生した場合でも、Amazon EMR で最終日のデータが Amazon S3 にアップロードされるまで待ってから分析が開始されます。

目次
AWS Data Pipeline へのアクセス
次のインターフェイスのいずれかを使用して、パイプラインの作成、アクセス、管理を行うことができます。
-
AWS Management Console – AWS Data Pipelineへのアクセスに使用できるウェブインターフェイスを提供します。
-
AWS Command Line Interface (AWS CLI) – AWS Data Pipeline を含むさまざまな AWS のサービス用のコマンドを備えており、Windows、macOS、Linux でサポートされています。AWS CLI のインストールの詳細については、AWS Command Line Interface
を参照してください。AWS Data Pipeline 用のコマンドのリストについては、datapipeline を参照してください。 -
AWS SDK — 言語固有の API を提供し、署名の計算、リクエストの再試行処理、エラー処理など、接続のさまざまな詳細を処理します。詳細については、AWS SDK
を参照してください。 -
クエリ API – HTTPS リクエストを使用して呼び出す低レベル API を提供します。クエリ API の使用は、AWS Data Pipeline の最も直接的なアクセス方法ですが、リクエストに署名するハッシュの生成やエラー処理など、低レベルの詳細な作業をアプリケーションで処理する必要があります。詳細については、AWS Data Pipeline API リファレンスを参照してください。
料金
Amazon Web Services と併せて、使用した分に応じてお支払いください。AWS Data Pipeline では、どのくらいの頻度でアクティビティおよび前提条件の実行がスケジュールされ、どこで実行されるかに基づいてパイプラインにお支払いいただきます。詳細については、「AWS Data Pipeline の料金
AWS アカウントを作成してから 12 か月未満の場合、無料利用枠を使用できます。無料利用枠には、1 か月あたり 3 つの低頻度の前提条件と 5 つの低頻度のアクティビティが無料で含まれています。詳細については、「AWS 無料利用枠