AWS Data Pipeline は、新規顧客には利用できなくなりました。の既存のお客様 AWS Data Pipeline は、通常どおりサービスを引き続き使用できます。詳細はこちら
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
からのワークロードの移行 AWS Data Pipeline
AWS は 2012 年に AWS Data Pipeline サービスを開始しました。当時は、さまざまなコンピューティングオプションを使用して、異なるデータソース間でデータを確実に移動できるサービスが求められていました。現在は、お客様により優れたエクスペリエンスを提供するサービスが他にもあります。例えば、 AWS Glue を使用して Apache Spark アプリケーションを実行およびオーケストレーションしたり、 AWS Step Functions を使用して AWS サービスコンポーネントをオーケストレーションしたり、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して Apache Airflow のワークフローオーケストレーションを管理したりできます。
このトピックでは、 から AWS Data Pipeline 代替オプションに移行する方法について説明します。選択するオプションは、 AWS Data Pipelineの現在のワークロードによって異なります。の一般的なユースケース AWS Data Pipeline を AWS Glue、、 AWS Step Functions、または Amazon MWAA に移行できます。
ワークロードの への移行 AWS Glue
AWS Glue
次の AWS Glue 場合は、 AWS Data Pipeline ワークロードを に移行することをお勧めします。
さまざまなデータソース、ビジュアルエディタやノートブックなどのオーサリングインターフェイス、データ品質や機密データ検出などの高度なデータ管理機能をサポートするサーバーレスデータ統合サービスを探している。
ワークロードは、 AWS Glue ワークフロー、ジョブ (Python または Apache Spark 内)、クローラ (既存のパイプラインが Apache Spark 上に構築されているなど) に移行できます。
取り込み、処理、転送、整合性テスト、品質チェックなど、データパイプラインのあらゆる側面を処理できる単一のプラットフォームを必要としている。
既存のパイプラインは、DynamoDB テーブルを Amazon S3 にエクスポートするなど、 AWS Data Pipeline コンソールの定義済みテンプレートから作成されており、同じ目的テンプレートを探しています。
ワークロードがApache Hiveのような特定のHadoopエコシステムアプリケーションには依存しない。
ワークロードにオンプレミスサーバーのオーケストレーションが必要ない。
AWS は、クローラ (データの検出) および ETL ジョブ (データの処理とロード) に対して、秒単位で課金される時間単位の料金を請求します。 AWS Glue Studio は AWS Glue リソース用の組み込みオーケストレーションエンジンであり、追加料金なしで提供されます。料金の詳細については、「AWS Glue の料金
AWS Step Functions へのワークロードの移行
AWS Step Functions
と同様に AWS Data Pipeline、 AWS Step Functions は が提供するフルマネージドサービスです AWS。インフラストラクチャの管理、ワーカーのパッチ適用、OSバージョン更新の管理などを行う必要はありません。
次の場合は、 AWS Data Pipeline ワークロードを AWS Step Functions に移行することをお勧めします。
サーバーレスで可用性の高いワークフローオーケストレーションサービスを探している。
1つのタスク実行の粒度で課金される、費用対効果の高いソリューションを探している。
ワークロードは、Amazon EMR、Lambda、DynamoDB など AWS Glue、他の複数の AWS サービスのタスクをオーケストレーションしています。
ワークフロー作成用の drag-and-drop ビジュアルデザイナーが付属するローコードソリューションを探しており、新しいプログラミング概念を学ぶ必要はありません。
11,000 を超えるアクションをカバーする 250 を超える他の AWS サービスとの統合を提供し out-of-the-box、カスタムの非AWS サービスおよびアクティビティとの統合を可能にするサービスを探しています。
AWS Data Pipeline と Step Functions はどちらも JSON 形式を使用してワークフローを定義します。これにより、ワークフローをソース管理に保存し、バージョンを管理し、アクセスを制御し、CI/CDで自動化することができます。Step Functionsは、完全にJSONに基づいたAmazon State Language と呼ばれる構文を使用しており、ワークフローのテキスト表現と視覚表現をシームレスに切り替えることができます。
Step Functionsでは、現在 AWS Data Pipelineで使用しているのと同じバージョンのAmazon EMRを選択できます。
AWS Data Pipeline マネージドリソースでのアクティビティを移行するには、Step Functions での AWS SDK サービス統合を使用して、リソースのプロビジョニングとクリーンアップを自動化できます。
オンプレミスサーバー、ユーザーマネージドEC2インスタンス、またはユーザーマネージドEMRクラスター上のアクティビティを移行する場合、SSMエージェントをインスタンスにインストールできます。コマンドは、Step FunctionsからAWS Systems Managerの実行コマンドを使用して開始できます。Amazon EventBridge
AWS Step Functions には、標準ワークフローと Express ワークフローの 2 種類のワークフローがあります。標準ワークフローでは、アプリケーションの実行に必要な状態遷移の回数に基づいて課金されます。Expressワークフローでは、ワークフローのリクエスト数とその期間に基づいて課金されます。料金の詳細については、「AWS Step Functionsの料金
Amazon MWAAへのワークロードの移行
Amazon MWAA
と同様に AWS Data Pipeline、Amazon MWAA は が提供するフルマネージドサービスです AWS。これらのサービスに固有の新しい概念をいくつか学ぶ必要がありますが、インフラストラクチャの管理、ワーカーのパッチ適用、OSバージョン更新の管理などを行う必要はありません。
次の場合は、 AWS Data Pipeline ワークロードを Amazon MWAA に移行することをお勧めします。
Pythonで記述されたワークフローをオーケストレーションするための、マネージド型の可用性の高いサービスを探している。
移植性を最大限に高めるに、フルマネージドで広く採用されているオープンソーステクノロジであるApache Airflowに移行したいと考えている。
取り込み、処理、転送、整合性テスト、品質チェックなど、データパイプラインのあらゆる側面を処理できる単一のプラットフォームを必要としている。
オブザーバビリティのための優れたUI、失敗したワークフローの再起動、バックフィル、タスクの再試行などの機能を備えた、データパイプラインオーケストレーション向けに設計されたサービスを探している。
800 を超える事前構築済みのオペレータとセンサーを備えたサービスを探しており、 だけでなくAWS 以外のサービス AWS もカバーしています。
Amazon MWAAワークフローはPythonを使用するDirected Acyclic Graphs (DAG) として定義されるため、ソースコードとして扱うこともできます。Airflowの拡張可能なPythonフレームワークにより、事実上あらゆるテクノロジーと接続するワークフローを構築できます。ワークフローを表示および監視するための優れたユーザーインターフェイスが付属しており、バージョン管理システムと簡単に統合してCI/CDプロセスを自動化できます。
Amazon MWAAでは、現在 AWS Data Pipelineで使用しているのと同じバージョンのAmazon EMRを選択できます。
AWS は、Airflow 環境の実行時間に加えて、ワーカーまたはウェブサーバーの容量を増やすための追加の自動スケーリングに対して課金します。料金の詳細については、「Amazon Managed Workflows for Apache Airflowの料金
概念のマッピング
次の表には、サービスで使用される主要な概念のマッピングが示されています。Data Pipelineに精通している人がStep FunctionsとMWAAの用語を理解するのに役立ちます。
Data Pipeline | 接着語 | Step Functions | Amazon MWAA |
---|---|---|---|
パイプライン | ワークフロー | ワークフロー | Direct acylic graphs |
パイプライン定義JSON | ワークフロー定義またはPythonベースのブループリント | Amazon State Language JSON | Pythonベース |
アクティビティ | ジョブ | ステートとタスク | タスク |
インスタンス | ジョブ実行 | 実行 | DAG実行 |
Attempts | 再試行回数 | Catcherとretrier | 再試行 |
パイプラインスケジュール | スケジュールトリガー | EventBridge スケジューラタスク | Cron |
パイプラインの式と関数 | ブループリントライブラリ | Step Functions組み込み関数とAWS Lambda | 拡張可能なPythonフレームワーク |
サンプル
以下のセクションでは、 から個々のサービスへの移行を参照できる公開例 AWS Data Pipeline を示します。それらを例として参照し、ユースケースに基づいて更新してテストすることで、個々のサービスで独自のパイプラインを構築できます。
AWS Glue サンプル
次のリストには、 の最も一般的な AWS Data Pipeline ユースケースのサンプル実装が含まれています AWS Glue。
JDBCからAmazon S3へのデータのコピー
(Amazon Redshiftを含む) Amazon S3からJDBCへのデータのコピー
(Amazon Redshiftを含む)
AWS Step Functions のサンプル
次のリストには、 AWS Step Functions AWS Data Pipeline の最も一般的なユースケースのサンプル実装が含まれています。
AWS Step Functions を使用するための追加のチュートリアルとサンプルプロジェクトを参照してください。
Amazon MWAAのサンプル
次のリストには、Amazon MWAA AWS Data Pipeline の最も一般的なユースケースのサンプル実装が含まれています。
Amazon MWAAの使用については、追加のチュートリアルとサンプルプロジェクトを参照してください。