ワークロード AWS Data Pipeline を から Amazon MWAA に移行する - Amazon Managed Workflows for Apache Airflow

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ワークロード AWS Data Pipeline を から Amazon MWAA に移行する

AWS は 2012 年に AWS Data Pipeline サービスを開始しました。当時、顧客は、さまざまなコンピューティングオプションを使用して、異なるデータソース間でデータを移動できるサービスを求めていました。データ転送のニーズは時間とともに変化するため、そのニーズに対応するソリューションも変化します。現在は、ビジネス要件に最も近いソリューションを選択できるようになりました。ワークロードは、次のいずれかのサービスに移行できます AWS 。

  • Amazon Managed Workflows for Apache Airflow (Amazon MWAA) を使用して、Apache Airflow のワークフローオーケストレーションを管理します。

  • Step Functionsを使用して、複数の AWS のサービス間でワークフローを組織化します。

  • AWS Glue を使用して Apache Spark アプリケーションを実行およびオーケストレーションします。

選択するオプションは、現在の AWS Data Pipelineのワークロードに依存します。このトピックでは、 から Amazon MWAA AWS Data Pipeline に移行する方法について説明します。

Amazon MWAA を選択する

Amazon Managed Workflows for Apache Airflow(Amazon MWAA)は、Apache Airflow向けのマネージド・オーケストレーション・サービスで、クラウド上でエンドツーエンドのデータ・パイプラインを大規模にセットアップし、運用することができます。Apache Airflow は、ワークフローと呼ばれる一連のプロセスやタスクをプログラムで作成、スケジュール設定、監視するために使用されるオープンソースのツールです。Amazon MWAAを使用すると、スケーラビリティ、可用性、セキュリティのための基盤を管理する必要なく、Apache Airflow と Python プログラミング言語を使用してワークフローを作成できます。Amazon MWAA は、ニーズに合わせてワークフロー容量を自動的にスケーリングし、 AWS セキュリティサービスと統合して、データへの高速かつ安全なアクセスを提供します。

から AWS Data Pipeline Amazon MWAA に移行する利点を以下に示します。

  • スケーラビリティとパフォーマンスの強化 — Amazon MWAA は、ワークフローを定義して実行するための柔軟でスケーラブルなフレームワークを提供します。これにより、ユーザーは大規模で複雑なワークフローを簡単に処理でき、動的タスクスケジューリング、データ駆動型ワークフロー、並列処理などの機能を活用できます。

  • モニタリングとロギングの向上 — Amazon MWAA は Amazon CloudWatch と統合され、ワークフローのモニタリングとロギングを強化します。Amazon MWAA は、システムメトリックスとログを CloudWatch に自動的に送信します。つまり、ワークフローの進行状況とパフォーマンスをリアルタイムで追跡し、発生した問題を特定できるということです。

  • AWS サービスおよびサードパーティーソフトウェアとの統合の向上 – Amazon MWAA は、Amazon S3、Amazon Redshift AWS Glue、および DBTSnowflakeDatabricks などのサードパーティーソフトウェアなどのさまざまな AWS サービスと統合されます。これにより、さまざまな環境やサービス間でデータを処理し、転送することができます。

  • オープンソースのデータパイプラインツール — Amazon MWAA は、使い慣れたオープンソースの Apache Airflow 製品を活用しています。Apache Airflow は、取り込み、処理、転送、整合性テスト、品質チェック、データリネージの確認など、データパイプライン管理のあらゆる側面を処理するように設計された専用ツールです。

  • モダンで柔軟なアーキテクチャ — Amazon MWAA はコンテナ化とクラウドネイティブなサーバーレステクノロジーを活用しています。つまり、柔軟性と移植性が向上し、ワークフロー環境のデプロイと管理が容易になります。

アーキテクチャとコンセプトのマッピング

AWS Data Pipeline と Amazon MWAA にはさまざまなアーキテクチャとコンポーネントがあり、移行プロセスやワークフローの定義と実行方法に影響を与える可能性があります。このセクションでは、両方のサービスのアーキテクチャとコンポーネントの概要を説明し、主な相違点をいくつか強調します。

AWS Data Pipeline と Amazon MWAA はどちらもフルマネージドサービスです。ワークロードを Amazon MWAA に移行する場合、Apache Airflow を使用して既存のワークフローをモデル化するための新しい概念を学ぶ必要があるかもしれません。ただし、インフラストラクチャを管理したり、ワーカーにパッチを適用したり、オペレーティングシステムの更新を管理したりする必要はありません。

次の表は、 の主要な概念 AWS Data Pipeline を Amazon MWAA の主要な概念と関連付けています。この情報を基にして移行計画を設計してください。

概念 AWS Data Pipeline Amazon MWAA
パイプライン定義 AWS Data Pipeline は、ワークフローを定義する JSON ベースの設定ファイルを使用します。 Amazon MWAA は、ワークフローを定義する Python ベースの有向非循環グラフ (DAGs) を使用します。
パイプライン実行環境 ワークフローは Amazon EC2 instances. AWS Data Pipeline で実行され、ユーザーに代わってこれらのインスタンスをプロビジョニングおよび管理します。 Amazon MWAA は Amazon ECS コンテナ環境を使用してタスクを実行します。
パイプラインコンポーネント アクティビティとは、ワークフローの一部として実行されるタスクを処理することです。 オペレータ (タスク) はワークフローの基本的な処理単位です。
前提条件には、アクティビティが実行される前に真でなければならない条件文が含まれます。 センサー (タスク) は、リソースまたはタスクが完了するのを待ってから実行できる条件ステートメントです。
リソース AWS Data Pipeline は、パイプラインアクティビティが指定する作業を実行する AWS コンピューティングリソースを指します。Amazon EC2 と Amazon EMR は、2 つのリソースで利用できます。 DAG 内のタスクを使用すると、Amazon ECS、Amazon EMR、Amazon EKS など、さまざまなコンピューティングリソースを定義できます。Amazon MWAA は、Amazon ECS 上で実行されるワーカーに対して Python オペレーションを実行します。
パイプラインの実行 AWS Data Pipeline は、通常のレートベースおよび cron ベースのパターンで実行をスケジュールできます。 Amazon MWAA は、cron の式やプリセット、カスタムタイムテーブルによるスケジューリングをサポートしています。
インスタンスとは、パイプラインの各実行を指します。 DAG 実行とは、Apache Airflow ワークフローの各実行を指します。
試行とは、失敗した操作を再試行することです。 Amazon MWAA は、DAG レベルまたはタスクレベルで定義した再試行をサポートします。

実装例

多くの場合、Amazon MWAA に移行 AWS Data Pipeline した後、現在オーケストレーションしているリソースを再利用できます。次のリストは、最も一般的なユースケースに Amazon MWAA AWS Data Pipeline を使用する実装例を示しています。

その他のチュートリアルや例については、以下を参照のこと:

価格比較

の料金は AWS Data Pipeline 、パイプラインの数と、各パイプラインの使用量に基づきます。1 日に 2 回以上 (高頻度) 実行するアクティビティには、1 アクティビティにつき 1 か月あたり 1 USD の費用がかかります。1 日 1 回以下 (低頻度) に実行するアクティビティには、1 回のアクティビティにつき 1 か月あたり 0.60 USD の費用がかかります。非アクティブなパイプラインの料金は、パイプライン 1 つにつき 1 USD です。詳細については、AWS Data Pipeline 料金表ページを参照してください。

Amazon MWAA の料金は、マネージド Apache Airflow 環境の存続期間と、より多くのワーカーやスケジューラーの容量を提供するために必要な追加のauto スケーリングに基づいています。Amazon MWAA 環境の使用量に対しては、時間単位 (1 秒単位で請求) で支払いますが、料金は環境の規模によって異なります。Amazon MWAA は、環境設定に基づいてワーカー数を自動スケーリングします。 AWS は追加のワーカーのコストは個別に計算します。さまざまな Amazon MWAA 環境サイズを使用する場合の 1 時間あたりのコストの詳細については、Amazon MWAA 料金表ページを参照してください。

関連リソース

Amazon MWAA を使用するための詳細情報とベストプラクティスについては、以下のリソースを参照のこと: