でのワークフローの作成と実行 AWS Glue - AWS Glue

英語の翻訳が提供されている場合で、内容が矛盾する場合には、英語版がオリジナルとして取り扱われます。翻訳は機械翻訳により提供されています。

でのワークフローの作成と実行 AWS Glue

AWS Glue コンソールを使用してワークフローを作成、可視化、および実行できます。AWS Glue API を使用してワークフローを管理する方法の詳細については、「 Workflows」を参照してください。

を使用したワークフローの作成と構築 AWS Glue コンソール

ワークフローは、ジョブ、クローラ、トリガーで構成されます。ワークフローを作成する前に、ワークフローに含めるジョブとクローラを作成します。ワークフローのクローラとしては、オンデマンドで実行するクローラを指定するのが最適です。トリガーは、ワークフローの構築中に新規作成できます。または、既存のトリガーをワークフロー内に 複製することもできます。トリガーを複製すると、そのトリガーに関連付けられているすべてのカタログオブジェクト (そのトリガーを発生させるジョブやクローラ、またはそのトリガーによって開始されるジョブやクローラ) がワークフローに追加されます。

ワークフローを構築するには、ワークフローのグラフにトリガーを追加し、トリガーごとに監視対象のイベントやアクションを定義します。まず、開始トリガーとしてオンデマンドトリガーまたはスケジュールトリガーを追加し、次にイベント (条件付き) トリガーを追加してグラフを完成します。

ステップ 1. ワークフローの作成

  1. AWS マネジメントコンソール にサインインし、AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。

  2. ナビゲーションペインの [ETL] で、[ワークフロー] を選択します。

  3. [Add workflow (ワークフローの追加)] を選択します。

  4. 新しい ETL ワークフローを追加する ページで、ワークフロー名とオプションの説明を入力します。

  5. (オプション)選択 プロパティを追加 デフォルトのワークフロー実行プロパティを追加します。

    デフォルトの実行プロパティは、ワークフロー内のすべてのジョブの引数として使用できます。詳細については、「ワークフローの実行プロパティの取得と設定」を参照してください。

  6. (オプション) 対象 最大同時実行回数、このワークフローが使用できる同時ワークフロー実行の最大数を入力します。

    このパラメータを使用すると、データへの不要な複数の更新を防止したり、コストを制御したり、場合によっては、コンポーネント ジョブの同時実行の最大数を超過することを防止したりできます。このパラメータを空白のままにすると、同時ワークフロー実行回数に制限はありません。

  7. [Add workflow (ワークフローの追加)] を選択します。

    新しいワークフローが [ワークフロー] ページのリストに表示されます。

ステップ 2. 開始トリガーの追加

  1. [ワークフロー] ページで、新しいワークフローを選択します。下部のタブで、[Graph (グラフ)] を選択します。

  2. [トリガーを追加] を選択し、[トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。

    • [Add new (新規追加)] を選択して [トリガーを追加] フォームに入力し、[トリガータイプ] として [スケジュール] または [オンデマンド] を選択します。次に、[Add (追加)] を選択します。

      トリガーがグラフ上に表示されます。プレースホルダーノード ([Add node (ノードの追加)] というラベルが付いたノード) も一緒に表示されます。この時点では、トリガーは未保存です。

      
                                    2 つの長方形のノード (トリガーとプレースホルダーノード) を示すグラフ。矢印は、トリガーノードからプレースホルダーノードを指します。
    • [Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。次に、[Add (追加)] を選択します。

      トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。

      トリガーを間違えて選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。

  3. 新しいトリガーを追加した場合は、以下のステップを実行します。

    1. 以下のいずれかの操作を行います。

      • プレースホルダーノード ([Add node (ノードの追加]) を選択します。

      • 開始トリガーが選択されていることを確認し、 [アクション] メニューの [Add jobs/crawlers to trigger (トリガーにジョブ/クローラを追加)] を選択します。

    2. Add job(s) and crawler(s) to trigger (トリガーにジョブおよびクローラを追加)] ダイアログボックスで、1 つ以上のジョブまたはクローラを選択し、 [追加] を選択します。

      トリガーが保存されます。選択したジョブまたはクローラが、トリガーからのコネクタと共にグラフに表示されます。

      ジョブやクローラを間違って追加した場合は、トリガーまたはコネクタを選択して、[削除] を選択できます。

ステップ 3. (オプション)トリガーを追加

さらにトリガーを追加して、ワークフローの構築を続けます。グラフのキャンバスを拡大または縮小するには、グラフの右側にあるアイコンを使用します。追加するトリガーごとに、以下の手順を実行します。

  1. 以下のいずれかの操作を行います。

    • 既存のトリガーを複製するには、グラフで選択されているノードがないことを確認し、 [アクション] メニューの [トリガーを追加] を選択します。

    • グラフ上の特定のジョブまたはクローラを監視する新しいトリガーを追加するには、そのジョブまたはクローラのノードを選択し、[トリガーを追加] プレースホルダーノードを選択します。

      後のステップで、このトリガーで監視するジョブやクローラをさらに追加できます。

  2. [トリガーを追加] ダイアログボックスで、次のいずれかの操作を行います。

    • [Add new (新規追加)] を選択し、[トリガーを追加] フォームに入力します。次に、[Add (追加)] を選択します。

      トリガーがグラフに表示されます。後のステップでトリガーを完了します。

    • [Clone existing (既存の複製)] を選択し、複製するトリガーを選択します。次に、[Add (追加)] を選択します。

      トリガーがグラフに表示されます。トリガーで監視するジョブやクローラおよびトリガーで開始するジョブやクローラも表示されます。

      トリガーを間違って選択した場合は、そのトリガーをグラフで選択し、[削除] を選択します。

  3. 新しいトリガーを追加した場合は、以下のステップを実行します。

    1. 新しいトリガーを選択します。

      次のグラフが表示され、プレースホルダーノードがイベント用 (1) とアクション用 (2) に表示されます。

      
                                    多くのノードを含むグラフ。そのうちの 2 つは、1 と 2 の番号として呼び出されるプレースホルダー ノードです。
    2. (トリガがすでにイベントを監視していて、監視するジョブまたはクローラーを追加したい場合はオプションです。) 監視するイベント プレースホルダー ノードを選択し、 監視するジョブとクローラーを追加 ダイアログ ボックスで、1つ以上のジョブまたはクローラーを選択します。監視対象のイベント (成功、失敗など) を選択して、 [追加] を選択します。

    3. トリガーが選択されていることを確認し、アクション用のプレースホルダーノードを選択します。

    4. [Add job(s) and crawler(s) to watch (監視対象のジョブやクローラの追加)] ダイアログボックスで 1 つ以上のジョブまたはクローラを選択し、[追加] を選択します。

      選択したジョブやクローラがグラフに表示されます。トリガーからのコネクタも表示されます。

ワークフローの実行

ワークフローの開始トリガーがオンデマンドトリガーである場合は、ワークフローを AWS Glue コンソール、AWS Command Line Interface (AWS CLI)、または AWS Glue API から実行できます。

ワークフローを実行するには (コンソール)

  1. AWS Glue コンソール (https://console.aws.amazon.com/glue/) を開きます。

  2. ナビゲーションペインの [ETL] で、[ワークフロー] を選択します。

  3. ワークフローを選択します。[アクション] メニューの [実行] を選択します。

    ワークフロー実行ステータスを AWS Glue コンソールの 最終実行ステータス 列。

    ワークフローが失敗した場合は、次の手順を実行します。

    1. ワークフローが選択されていることを確認し、 履歴 タブ。

    2. 以下 履歴、最新のランを選択し、 実行詳細の表示.

    3. ダイナミック(ランタイム)グラフで失敗したジョブまたはクローラーを選択し、 ジョブの詳細 または クローラーのディテール ペインが表示されます。障害のあるノードは赤または黄です。の説明については、 ステータス 値、を参照 AWS Glue ジョブ実行ステータス.

ワークフローを実行するには (AWS CLI)

  • 次のコマンドを入力します。Replace (置換) <workflow-name> ワークフローを実行します。

    aws glue start-workflow-run --name <workflow-name>

    ワークフローが正常に開始されると、コマンドから実行 ID が返されます。