AWS Glue のワークフローの概要 - AWS Glue

AWS Glue のワークフローの概要

AWS Glue では、複数のクローラ、ジョブ、およびトリガーを伴う複雑な ETL (抽出、変換、ロード) アクティビティを作成して可視化できます。各ワークフローは、それに含まれるすべてのコンポーネントの実行とモニタリングを管理します。ワークフローは、各コンポーネントを実行するたびに、実行の進捗状況とステータスを記録し、タスク全体の概要と各ステップの詳細を提供します。AWS Glue コンソールは、ワークフローの状態をグラフで表示します。

ワークフロー内のイベントトリガーは、ジョブまたはクローラの両方によって起動され、ジョブとクローラの両方を開始できます。したがって、相互に依存するジョブとクローラの大規模なチェーンを作成できます。

ワークフローの実行全体の状態を共有して管理するには、ワークフローのデフォルトの実行プロパティを定義できます。これらのプロパティ (名前と値のペア) は、ワークフローのすべてのジョブで使用できます。AWS Glue API を使用すると、ジョブはワークフローの実行プロパティを取得し、これらのプロパティを変更してワークフローの以降のジョブで使用できます。

次の図は、AWS Glue コンソールの基本的なワークフローのグラフを示しています。ワークフローには、いくつものコンポーネントが含まれている場合があります。


             コンソールに表示されるワークフローの [グラフ] タブのスクリーンショット。このグラフには、スケジュールトリガー、2 つのジョブ、イベント成功トリガー、スキーマを更新するクローラを示す 5 つのアイコンがふくまれています。

このワークフローを開始するのはスケジュールトリガーです。このトリガーにより、2 つのジョブが開始されます。両方のジョブが正常に完了すると、イベントトリガーによってクローラが開始されます。

ワークフローの静的ビューと動的ビュー

各ワークフローには、静的ビュー動的ビューの表記があります。静的ビューは、ワークフローの設計を示します。動的ビューは、各ジョブや各クローラの最新の実行情報を含むランタイムビューです。実行情報には、成功ステータスとエラーの詳細が含まれます。

ワークフローの実行中は、その動的ビューがコンソールに表示されます。また、完了済みのジョブと未実行のジョブがグラフで示されます。実行中のワークフローの動的ビューは、AWS Glue API を使用して取得することもできます。詳細については、「AWS Glue APIを使用したワークフローのクエリ」を参照してください。

ワークフローの制限

以下のワークフローの制限に注意してください。

  • トリガーは 1 つのワークフローにのみ関連付けることができます。

  • 1 つの開始トリガー (オンデマンドまたはスケジュール) のみが許可されます。

  • ワークフロー内のジョブまたはクローラがワークフロー外のトリガーによって開始された場合、ジョブまたはクローラの完了 (成功またはその他) に依存するワークフロー内のトリガーは起動されません。

  • 同様に、ワークフロー内のジョブまたはクローラに、ワークフロー内とワークフロー外の両方でジョブまたはクローラの完了 (成功またはその他) に依存するトリガーがある場合、ジョブまたはクローラがワークフロー内から開始されると、ジョブまたはクローラの完了時、ワークフロー内のトリガーのみが起動されます。