からのワークロードの移行 AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline は、新規顧客には利用できなくなりました。の既存のお客様 AWS Data Pipeline は、通常どおりサービスを引き続き使用できます。詳細はこちら

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

からのワークロードの移行 AWS Data Pipeline

AWS は 2012 年に AWS Data Pipeline サービスを開始しました。当時は、さまざまなコンピューティングオプションを使用して、異なるデータソース間でデータを確実に移動できるサービスが求められていました。現在は、お客様により優れたエクスペリエンスを提供するサービスが他にもあります。例えば、 AWS Glue を使用して Apache Spark アプリケーションを実行およびオーケストレーションしたり、 AWS Step Functions を使用して AWS サービスコンポーネントをオーケストレーションしたり、Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して Apache Airflow のワークフローオーケストレーションを管理したりできます。

このトピックでは、 から AWS Data Pipeline 代替オプションに移行する方法について説明します。選択するオプションは、 AWS Data Pipelineの現在のワークロードによって異なります。の一般的なユースケース AWS Data Pipeline を AWS Glue、、 AWS Step Functions、または Amazon MWAA に移行できます。

ワークロードの への移行 AWS Glue

AWS Glueは、分析を行うユーザーが複数のソースからのデータを簡単に検出、準備、移動、統合できるようにするサーバーレスのデータ統合サービスです。これには、ジョブの作成、実行、ワークフローのオーケストレーションのためのツールが含まれています。を使用すると AWS Glue、70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理できます。抽出、変換、ロード(ETL)パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。また、Amazon Athena、Amazon EMR、Amazon Redshift Spectrumを使用して、カタログ化されたデータをすぐに検索し、クエリできます。

次の AWS Glue 場合は、 AWS Data Pipeline ワークロードを に移行することをお勧めします。

  • さまざまなデータソース、ビジュアルエディタやノートブックなどのオーサリングインターフェイス、データ品質や機密データ検出などの高度なデータ管理機能をサポートするサーバーレスデータ統合サービスを探している。

  • ワークロードは、 AWS Glue ワークフロー、ジョブ (Python または Apache Spark 内)、クローラ (既存のパイプラインが Apache Spark 上に構築されているなど) に移行できます。

  • 取り込み、処理、転送、整合性テスト、品質チェックなど、データパイプラインのあらゆる側面を処理できる単一のプラットフォームを必要としている。

  • 既存のパイプラインは、DynamoDB テーブルを Amazon S3 にエクスポートするなど、 AWS Data Pipeline コンソールの定義済みテンプレートから作成されており、同じ目的テンプレートを探しています。

  • ワークロードがApache Hiveのような特定のHadoopエコシステムアプリケーションには依存しない。

  • ワークロードにオンプレミスサーバーのオーケストレーションが必要ない。

AWS は、クローラ (データの検出) および ETL ジョブ (データの処理とロード) に対して、秒単位で課金される時間単位の料金を請求します。 AWS Glue Studio は AWS Glue リソース用の組み込みオーケストレーションエンジンであり、追加料金なしで提供されます。料金の詳細については、「AWS Glue の料金」を参照してください。

AWS Step Functions へのワークロードの移行

AWS Step Functions は、ビジネスクリティカルなアプリケーションのワークフローを構築できるサーバーレスオーケストレーションサービスです。Step Functions では、ビジュアルエディタを使用してワークフローを構築し、AWS Lambda 、Amazon EMR、DynamoDB など、250 を超える AWS サービスの 11,000 を超えるアクションと直接統合できます。Step Functions を使用して、データ処理パイプラインのオーケストレーション、エラーの処理、基盤となる AWS サービスのスロットリング制限の操作を行うことができます。機械学習モデルを処理して公開するワークフローを作成し、マイクロサービスをオーケストレーションし、 AWS などの サービスを制御して AWS Glue、抽出、変換、ロード (ETL) ワークフローを作成できます。また、手動による介入が必要なアプリケーション用に実行時間が長い自動化されたワークフローを作成することもできます。

と同様に AWS Data Pipeline、 AWS Step Functions は が提供するフルマネージドサービスです AWS。インフラストラクチャの管理、ワーカーのパッチ適用、OSバージョン更新の管理などを行う必要はありません。

次の場合は、 AWS Data Pipeline ワークロードを AWS Step Functions に移行することをお勧めします。

  • サーバーレスで可用性の高いワークフローオーケストレーションサービスを探している。

  • 1つのタスク実行の粒度で課金される、費用対効果の高いソリューションを探している。

  • ワークロードは、Amazon EMR、Lambda、DynamoDB など AWS Glue、他の複数の AWS サービスのタスクをオーケストレーションしています。

  • ワークフロー作成用の drag-and-drop ビジュアルデザイナーが付属するローコードソリューションを探しており、新しいプログラミング概念を学ぶ必要はありません。

  • 11,000 を超えるアクションをカバーする 250 を超える他の AWS サービスとの統合を提供し out-of-the-box、カスタムの非AWS サービスおよびアクティビティとの統合を可能にするサービスを探しています。

AWS Data Pipeline と Step Functions はどちらも JSON 形式を使用してワークフローを定義します。これにより、ワークフローをソース管理に保存し、バージョンを管理し、アクセスを制御し、CI/CDで自動化することができます。Step Functionsは、完全にJSONに基づいたAmazon State Language と呼ばれる構文を使用しており、ワークフローのテキスト表現と視覚表現をシームレスに切り替えることができます。

Step Functionsでは、現在 AWS Data Pipelineで使用しているのと同じバージョンのAmazon EMRを選択できます。

AWS Data Pipeline マネージドリソースでのアクティビティを移行するには、Step Functions での AWS SDK サービス統合を使用して、リソースのプロビジョニングとクリーンアップを自動化できます。

オンプレミスサーバー、ユーザーマネージドEC2インスタンス、またはユーザーマネージドEMRクラスター上のアクティビティを移行する場合、SSMエージェントをインスタンスにインストールできます。コマンドは、Step FunctionsからAWS Systems Managerの実行コマンドを使用して開始できます。Amazon EventBridge で定義されたスケジュールからステートマシンを開始することもできます。

AWS Step Functions には、標準ワークフローと Express ワークフローの 2 種類のワークフローがあります。標準ワークフローでは、アプリケーションの実行に必要な状態遷移の回数に基づいて課金されます。Expressワークフローでは、ワークフローのリクエスト数とその期間に基づいて課金されます。料金の詳細については、「AWS Step Functionsの料金」を参照してください。

Amazon MWAAへのワークロードの移行

Amazon MWAA (Managed Workflows for Apache Airflow) は、Apache Airflow 用のマネージドオーケストレーションサービスで、クラウドでの end-to-end 大規模なデータパイプラインのセットアップと運用を容易にします。Apache Airflowは、「ワークフロー」と呼ばれる一連のプロセスとタスクをプログラムで作成、スケジュール、監視するためのオープンソースのツールです。Amazon MWAAでは、AirflowとPythonプログラミング言語を使用して、スケーラビリティ、可用性、セキュリティの基盤となるインフラストラクチャを管理せずにワークフローを作成できます。Amazon MWAA は、ワークフロー実行容量をニーズに合わせて自動的にスケーリングし、 AWS セキュリティサービスと統合して、データへの高速かつ安全なアクセスを提供します。

と同様に AWS Data Pipeline、Amazon MWAA は が提供するフルマネージドサービスです AWS。これらのサービスに固有の新しい概念をいくつか学ぶ必要がありますが、インフラストラクチャの管理、ワーカーのパッチ適用、OSバージョン更新の管理などを行う必要はありません。

次の場合は、 AWS Data Pipeline ワークロードを Amazon MWAA に移行することをお勧めします。

  • Pythonで記述されたワークフローをオーケストレーションするための、マネージド型の可用性の高いサービスを探している。

  • 移植性を最大限に高めるに、フルマネージドで広く採用されているオープンソーステクノロジであるApache Airflowに移行したいと考えている。

  • 取り込み、処理、転送、整合性テスト、品質チェックなど、データパイプラインのあらゆる側面を処理できる単一のプラットフォームを必要としている。

  • オブザーバビリティのための優れたUI、失敗したワークフローの再起動、バックフィル、タスクの再試行などの機能を備えた、データパイプラインオーケストレーション向けに設計されたサービスを探している。

  • 800 を超える事前構築済みのオペレータとセンサーを備えたサービスを探しており、 だけでなくAWS 以外のサービス AWS もカバーしています。

Amazon MWAAワークフローはPythonを使用するDirected Acyclic Graphs (DAG) として定義されるため、ソースコードとして扱うこともできます。Airflowの拡張可能なPythonフレームワークにより、事実上あらゆるテクノロジーと接続するワークフローを構築できます。ワークフローを表示および監視するための優れたユーザーインターフェイスが付属しており、バージョン管理システムと簡単に統合してCI/CDプロセスを自動化できます。

Amazon MWAAでは、現在 AWS Data Pipelineで使用しているのと同じバージョンのAmazon EMRを選択できます。

AWS は、Airflow 環境の実行時間に加えて、ワーカーまたはウェブサーバーの容量を増やすための追加の自動スケーリングに対して課金します。料金の詳細については、「Amazon Managed Workflows for Apache Airflowの料金」を参照してください。

概念のマッピング

次の表には、サービスで使用される主要な概念のマッピングが示されています。Data Pipelineに精通している人がStep FunctionsとMWAAの用語を理解するのに役立ちます。

サンプル

以下のセクションでは、 から個々のサービスへの移行を参照できる公開例 AWS Data Pipeline を示します。それらを例として参照し、ユースケースに基づいて更新してテストすることで、個々のサービスで独自のパイプラインを構築できます。

AWS Glue サンプル

次のリストには、 の最も一般的な AWS Data Pipeline ユースケースのサンプル実装が含まれています AWS Glue。

AWS Step Functions のサンプル

次のリストには、 AWS Step Functions AWS Data Pipeline の最も一般的なユースケースのサンプル実装が含まれています。

AWS Step Functions を使用するための追加のチュートリアルサンプルプロジェクトを参照してください。

Amazon MWAAのサンプル

次のリストには、Amazon MWAA AWS Data Pipeline の最も一般的なユースケースのサンプル実装が含まれています。

Amazon MWAAの使用については、追加のチュートリアルサンプルプロジェクトを参照してください。