AWS Glue でワークフローを手動により作成および構築する - AWS Glue

AWS Glue でワークフローを手動により作成および構築する

AWS Glue コンソールにより、ワークフローのノードを一度に 1 つずつ手動で作成し構築できます。

ワークフローは、ジョブ、クローラ、トリガーで構成されます。ワークフローの手動作成を開始する前に、ワークフローに含めるジョブとクローラを作成します。ワークフローのクローラは、オンデマンドで実行するように指定するのが最適です。トリガーは、ワークフローの構築中に新規作成できます。または、既存のトリガーをワークフロー内に 複製することもできます。トリガーをクローンすると、トリガーに関連付けられたすべてのカタログオブジェクト (トリガーを起動するジョブまたはクローラ、トリガーにより開始されるジョブまたはクローラ) がワークフローに追加されます。

重要

ワークフロー内のジョブ、クローラ、トリガーの総数を 100 以下に制限します。100 を超える値を含めると、ワークフローの実行を再開または停止しようとしたときにエラーが発生することがあります。

ワークフローを構築するには、ワークフローのグラフにトリガーを追加し、トリガーごとに監視対象のイベントやアクションを定義します。まず、開始トリガーとしてオンデマンドトリガーまたはスケジュールトリガーを追加し、次にイベント (条件付き) トリガーを追加してグラフを完成します。

ステップ 1: ワークフローを作成する

  1. AWS Management Console にサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。

  2. ナビゲーションペインの [ETL] で、[ワークフロー] を選択します。

  3. [ワークフロー] を選択し、[Add a new ETL workflow (新しい ETL ワークフローの追加)] フォームに入力します。

    オプションとして追加したデフォルトの実行プロパティは、ワークフローのすべてのジョブに対する引数として使用できます。詳細については、AWS Glue でのワークフローの実行プロパティの取得と設定 を参照してください。

  4. [Add workflow (ワークフローの追加)] を選択します。

    新しいワークフローが [ワークフロー] ページのリストに表示されます。

ステップ 2: 開始トリガーを追加する

  1. [ワークフロー] ページで、新しいワークフローを選択します。次に、ページの下部で [Graph] (グラフ) タブが選択されていることを確認します。

  2. [トリガーを追加] を選択し、[トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。

    • [Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。その後、[Add] (追加) を選択します。

      トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。

      トリガーを間違えて選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。

    • [Add new (新規追加)] を選択し、[トリガーを追加] フォームに入力します。

      1. [Trigger type] (トリガータイプ) で、[Schedule] (スケジュール)、[On demand] (オンデマンド)、または [EventBridge event] (EventBridge イベント) のいずれかを選択します。

        トリガータイプを [Schedule] (スケジュール) にした場合、[Frequency] (頻度) オプションの中から 1 つを選択します。cron 式を入力するには、[Custom] (カスタム) をクリックします。

        トリガータイプに [EventBridge event] (EventBridge イベント) を選択した場合は、[Number of events] (イベント数) (バッチサイズ) を入力し、オプションで [Time delay] (遅延時間) (バッチウィンドウ) を入力します。[Time delay] (遅延時間) を省略した場合、デフォルトでバッチウィンドウには 15 分が指定されます。詳細については、AWS Glue のワークフローの概要 を参照してください。

      2. [Add] (追加) を選択します。

      トリガーがグラフ上に表示されます。プレースホルダーノード ([Add node (ノードの追加)] というラベルが付いたノード) も一緒に表示されます。以下の例では、開始トリガーは Month-close1 という名前のスケジュールされたトリガーです。

      この段階では、トリガーは保存されていません。

      
                                2 つの長方形のノード (トリガーとプレースホルダーノード) を示すグラフ。矢印が、トリガーノードからプレースホルダーノードを指しています。
  3. 新しいトリガーを追加した場合は、以下のステップを実行します。

    1. 次のいずれかを実行します。

      • プレースホルダーノード ([Add node (ノードの追加]) を選択します。

      • 開始トリガーが選択されていることを確認し、 [アクション] メニューの [Add jobs/crawlers to trigger (トリガーにジョブ/クローラを追加)] を選択します。

    2. Add job(s) and crawler(s) to trigger (トリガーにジョブおよびクローラを追加)] ダイアログボックスで、1 つ以上のジョブまたはクローラを選択し、 [追加] を選択します。

      トリガーが保存されます。選択したジョブまたはクローラが、トリガーからのコネクタと共にグラフに表示されます。

      ジョブやクローラを間違って追加した場合は、トリガーまたはコネクタを選択して、[削除] を選択できます。

ステップ 3: さらにトリガーを追加する

[Event] (イベント) タイプのトリガーをさらに追加して、ワークフローの構築を続けます。グラフのキャンバスを拡大または縮小するには、グラフの右側にあるアイコンを使用します。追加するトリガーごとに、以下の手順を実行します。

注記

ワークフローの保存のために、行うべきアクションはありません。最後のトリガーを追加し、そのトリガーにアクションを割り当てると、ワークフローが完了し保存されます。後の任意のタイミングでこの作業に戻り、さらにノードを追加することができます。

  1. 次のいずれかを実行します。

    • 既存のトリガーを複製するには、グラフで選択されているノードがないことを確認し、 [アクション] メニューの [トリガーを追加] を選択します。

    • グラフ上の特定のジョブまたはクローラを監視する新しいトリガーを追加するには、そのジョブまたはクローラのノードを選択し、[トリガーを追加] プレースホルダーノードを選択します。

      後のステップで、このトリガーで監視するジョブやクローラをさらに追加できます。

  2. [トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。

    • [Add new (新規追加)] を選択し、[トリガーを追加] フォームに入力します。その後、[Add] (追加) を選択します。

      トリガーがグラフに表示されます。後のステップでトリガーを完了します。

    • [Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。その後、[Add] (追加) を選択します。

      トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。

      トリガーを間違って選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。

  3. 新しいトリガーを追加した場合は、以下のステップを実行します。

    1. 新しいトリガーを選択します。

      次のように、トリガー De-dupe/fix succeeded が選択された状態のグラフが表示され、プレースホルダーノードが (1) イベント用、ならびに (2) アクション用として表示されます。

      
                                数字の 1 と 2 の吹き出しが付いた 2 つのプレースホルダーノードを含む、複数のノードを示すグラフ。
    2. (トリガーでイベントを既に監視しており、監視対象のジョブやクローラをを追加する場合のオプション) 監視対象イベントのプレースホルダーノードを選択し、[Add job(s) and crawler(s) to watch (監視するジョブやクローラの追加)] ダイアログボックスで 1 つ以上のジョブまたはクローラを選択します。監視対象のイベント (成功、失敗など) を選択して、 [追加] を選択します。

    3. トリガーが選択されていることを確認し、アクション用のプレースホルダーノードを選択します。

    4. [Add job(s) and crawler(s) to watch (監視対象のジョブやクローラの追加)] ダイアログボックスで 1 つ以上のジョブまたはクローラを選択し、[追加] を選択します。

      選択したジョブやクローラがグラフに表示されます。トリガーからのコネクタも表示されます。

Express ワークフローと サービス統合の詳細については、以下を参照してください。