ジョブ - AWS Glue

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

ジョブ

Jobs API では、 でのジョブの作成、更新、削除、表示に関連するデータ型と API について説明します AWS Glue。

データ型

Job 構造

ジョブ定義を指定します。

フィールド
  • Name – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブ定義に割り当てる名前。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    ジョブの説明。

  • LogUri – UTF-8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role – UTF-8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。

  • CreatedOn – タイムスタンプ。

    このジョブ定義を作成した日時。

  • LastModifiedOn – タイムスタンプ。

    このジョブ定義を変更した最後の時点。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • CommandJobCommand オブジェクト。

    このジョブを実行する JobCommand

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    ここで、独自のジョブ実行スクリプトが消費する引数と、 AWS Glue それ自体が消費する引数を指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、 AWS Glue 接続 AWS Secrets Manager または他のシークレット管理メカニズムからシークレットを取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    が JobRun 失敗した後にこのジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    このジョブの実行に割り当てられた AWS Glue データ処理ユニット (DPUsの数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout - 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブでは、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPUsの数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

    • G.1X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.4X ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム) AWS の各リージョンの Spark ETL ジョブバージョン AWS Glue 3.0 以降でのみ使用できます。

    • G.8X ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用でき、 G.4Xワーカータイプでサポートされているリージョンと同じ AWS リージョンで使用できます。

    • G.025X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 ストリーミングジョブでのみ使用できます。

    • Z.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • SecurityConfiguration – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • Running – ブール。

    このフィールドは、将来の利用のために予約されています。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。

    Spark ジョブでは、 はジョブ AWS Glue で使用できる Apache Spark と Python のバージョンGlueVersionを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    利用可能な AWS Glue バージョン、および対応する Spark と Python のバージョンの詳細については、「 デベロッパーガイド」の「 Glue のバージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #33 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass - UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    ExecutionClassに設定できるのはglueetl、 AWS Glue バージョン 3.0 以降のジョブとコマンドタイプのみですFLEX。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • ProfileName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブに関連付けられた AWS Glue 使用プロファイルの名前。

ExecutionProperty 構造

ジョブの実行プロパティ。

フィールド
  • MaxConcurrentRuns – 数値 (整数)。

    このジョブで許可される同時実行の最大数。デフォルト は 1 です。このしきい値に達すると、エラーが返されます。指定できる最大値は、サービスの制限によってコントロールされます。

NotificationProperty 構造

通知の構成プロパティを指定します。

フィールド
  • NotifyDelayAfter - 数値 (整数)。1 以上。

    ジョブの実行が開始された後、ジョブ実行遅延通知を送信するまでの待機時間 (分単位)。

JobCommand 構造

ジョブの実行時に実行するコードを指定します。

フィールド
  • Name – UTF-8 文字列。

    ジョブコマンドの名前。Apache Spark ETL ジョブの場合は、glueetl を指定する必要があります。Python シェルジョブの場合は、pythonshell を指定する必要があります。Apache Spark ストリーミング ETL ジョブの場合は、gluestreaming を指定する必要があります。Ray ジョブの場合は、glueray を指定する必要があります。

  • ScriptLocation - UTF-8 文字列。400000 バイト長以下。

    ジョブを実行するスクリプトへの Amazon Simple Storage Service (Amazon S3) パスを指定します。

  • PythonVersion– UTF-8 文字列、「Custom string pattern #16」に一致。

    Python シェルジョブを実行するために使用中の Python のバージョン。指定できる値は、2 または 3 です。

  • Runtime - UTF-8 文字列、64 バイト長以下、Custom string pattern #24 に一致。

    Ray ジョブではランタイムを使用して、環境で使用可能な Ray、Python、および他のライブラリのバージョンを指定します。このフィールドは、他のジョブタイプでは使用されません。サポートされているランタイム環境値については、「 AWS Glue デベロッパーガイド」の「サポートされている Ray ランタイム環境」を参照してください。

ConnectionsList 構造

ジョブが使用する接続を指定します。

フィールド
  • Connections – UTF-8 文字列の配列。

    ジョブが使用する接続のリスト。

JobUpdate 構造

既存のジョブ定義を更新するための情報を指定します。以前のジョブ定義はこの情報によって完全に上書きされます。

フィールド
  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    定義するジョブの説明。

  • LogUri – UTF-8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role – UTF-8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN) (必須)。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • CommandJobCommand オブジェクト。

    このジョブを実行する JobCommand (必須)。

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    ここで、独自のジョブ実行スクリプトが消費する引数と、 AWS Glue それ自体が消費する引数を指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、 AWS Glue 接続 AWS Secrets Manager または他のシークレット管理メカニズムからシークレットを取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    失敗した場合にこのジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    このジョブに割り当てる AWS Glue データ処理ユニット (DPUsの数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout - 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブでは、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPUsの数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

    • G.1X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.4X ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム) AWS の各リージョンの Spark ETL ジョブバージョン AWS Glue 3.0 以降でのみ使用できます。

    • G.8X ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用でき、 G.4Xワーカータイプでサポートされているリージョンと同じ AWS リージョンで使用できます。

    • G.025X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 ストリーミングジョブでのみ使用できます。

    • Z.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • SecurityConfiguration – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。

    Spark ジョブでは、 はジョブ AWS Glue で使用できる Apache Spark と Python のバージョンGlueVersionを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    利用可能な AWS Glue バージョン、および対応する Spark と Python のバージョンの詳細については、「 デベロッパーガイド」の「 Glue のバージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #33 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass - UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    ExecutionClassに設定できるのはglueetl、 AWS Glue バージョン 3.0 以降のジョブとコマンドタイプのみですFLEX。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • ProfileName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブに関連付けられた AWS Glue 使用プロファイルの名前。

SourceControlDetails 構造

ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

フィールド
  • Provider – UTF-8 文字列。

    リモートリポジトリのプロバイダ。

  • Repository – UTF-8 文字列。1~512 バイト長。

    ジョブのアーティファクトを含むリモートリポジトリの名前。

  • Owner – UTF-8 文字列。1~512 バイト長。

    ジョブのアーティファクトを含むリモートリポジトリの所有者。

  • Branch – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のオプションのブランチ。

  • Folder – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のオプションのフォルダ。

  • LastCommitId – UTF-8 文字列。1~512 バイト長。

    リモートリポジトリ内のコミットの最後のコミット ID。

  • LastSyncTimestamp – UTF-8 文字列。1~512 バイト長。

    ジョブ同期が最後に実行された日時。

  • AuthStrategy – UTF-8 文字列。

    認証のタイプ。 AWS Secrets Manager に保存されている認証トークン、または個人用アクセストークンです。

  • AuthToken – UTF-8 文字列。1~512 バイト長。

    認証トークンの値。

操作

CreateJob アクション (Python: create_job)

新しいジョブ定義を作成します。

リクエスト
  • Name – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    このジョブ定義に割り当てる名前。 アカウント内で一意にする必要があります。

  • Description – 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。

    定義するジョブの説明。

  • LogUri – UTF-8 文字列。

    このフィールドは、将来の利用のために予約されています。

  • Role – 必須: UTF-8 文字列。

    このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。

  • ExecutionPropertyExecutionProperty オブジェクト。

    このジョブに許可される同時実行の最大数を指定する ExecutionProperty

  • Command – 必須: JobCommand オブジェクト。

    このジョブを実行する JobCommand

  • DefaultArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、このジョブを実行するごとのデフォルトの引数。

    ここで、独自のジョブ実行スクリプトが消費する引数と、 AWS Glue それ自体が消費する引数を指定できます。

    ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、 AWS Glue 接続 AWS Secrets Manager または他のシークレット管理メカニズムからシークレットを取得します。

    独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。

    Spark ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。

    Ray ジョブの設定時にこのフィールドに指定できる引数については、デベロッパーガイドの「Ray ジョブでジョブパラメータを使用する」を参照してください。

  • NonOverridableArguments – キーバリューペアのマップ配列。

    各キーは UTF-8 文字列。

    各値は UTF-8 文字列。

    名前と値のペアとして指定された、ジョブ実行時にジョブ引数を指定しても上書きされないこのジョブの引数。

  • ConnectionsConnectionsList オブジェクト。

    このジョブに使用される接続。

  • MaxRetries – 数値 (整数)。

    失敗した場合にこのジョブを再試行する最大回数。

  • AllocatedCapacity – 数値 (整数)。

    このパラメータは廃止されました。代わりに MaxCapacity を使用します。

    このジョブに割り当てる AWS Glue データ処理ユニット (DPUsの数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout - 数値 (整数)。1 以上。

    ジョブのタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。

  • MaxCapacity – 数値 (double)。

    Glue バージョン 1.0 以前のジョブでは、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPUsの数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    一方、Glue バージョン 2.0 以降のジョブでは、Maximum capacity を指定できません。代わりに、Worker typeNumber of workers を指定する必要があります。

    WorkerType および NumberOfWorkers を使用している場合は MaxCapacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブ (JobCommand.Name="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name="gluestreaming") を指定した場合は、2~100 の DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • SecurityConfiguration – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブで使用される SecurityConfiguration 構造の名前。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    このジョブと一緒に使用するタグです。ジョブへのアクセスを制限するためにタグを使用することができます。のタグの詳細については AWS Glue、「 デベロッパーガイド」のAWS 「 のタグ AWS Glue」を参照してください。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ通知の設定プロパティを指定します。

  • GlueVersion – UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。

    Spark ジョブでは、 はジョブ AWS Glue で使用できる Apache Spark と Python のバージョンGlueVersionを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    Ray ジョブの場合、GlueVersion4.0 以降に設定する必要があります。ただし、Ray ジョブで使用できる Ray、Python、および追加ライブラリのバージョンは、Job コマンドの Runtime パラメータによって決まります。

    使用可能な AWS Glue バージョン、および対応する Spark と Python のバージョンの詳細については、「 デベロッパーガイド」の「 Glue のバージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="" | G.025X="" | G.4X="" | G.8X="" | Z.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。Spark ジョブに使用できる値は G.1X、G.2X、G.4X、G.8X、または G.025X です。Ray ジョブに使用できる値は Z.2X です。

    • G.1X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 1 DPU (4 vCPU、16 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 77 GB の空き容量) を備えた 2 DPU (8 vCPU、32 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。データ変換、結合、クエリなどのワークロードには、ほとんどのジョブを実行するためのスケーラブルで費用対効果の高い方法として、このワーカータイプをお勧めします。

    • G.4X ワーカータイプでは、各ワーカーは 256 GB のディスク (約 235 GB の空き容量) を備えた 4 DPU (16 vCPU、64 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、米国東部 (オハイオ)、米国東部 (バージニア北部)、米国西部 (オレゴン)、アジアパシフィック (シンガポール)、アジアパシフィック (シドニー)、アジアパシフィック (東京)、カナダ (中部)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ストックホルム) AWS の各リージョンの Spark ETL ジョブバージョン AWS Glue 3.0 以降でのみ使用できます。

    • G.8X ワーカータイプでは、各ワーカーは 512 GB のディスク (約 487 GB の空き容量) を備えた 8 DPU (32 vCPU、128 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。ワークロードに含まれる変換、集約、結合、クエリへの要求が非常に厳しいジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 以降の Spark ETL ジョブでのみ使用でき、 G.4Xワーカータイプでサポートされているリージョンと同じ AWS リージョンで使用できます。

    • G.025X ワーカータイプでは、各ワーカーは 84 GB のディスク (約 34 GB の空き容量) を備えた 0.25 DPU (2 vCPU、4 GB のメモリ) にマッピングされており、ワーカーごとに 1 つのエグゼキューターを提供します。少量のストリーミングジョブには、このワーカータイプをお勧めします。このワーカータイプは、 AWS Glue バージョン 3.0 ストリーミングジョブでのみ使用できます。

    • Z.2X ワーカータイプでは、各ワーカーは 128 GB のディスク (約 120 GB の空き容量) を備えた 2 M-DPU (8 vCPU、64 GB のメモリ) にマッピングされており、オートスケーラーに基づき最大 8 個の Ray ワーカーを提供します。

  • CodeGenConfigurationNodes – キーバリューペアのマップ配列。

    各キーは、Custom string pattern #33 に適合する UTF-8 文字列です。

    各値は CodeGenConfigurationNode オブジェクトです。

    Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。

  • ExecutionClass - UTF-8 文字列。16 バイト長以下 (有効値: FLEX="" | STANDARD="")。

    ジョブが標準実行クラスまたは柔軟な実行クラスのどちらで実行されるのかを示します。標準の実行クラスは、素早くジョブを起動する必要があり、専用のリソースが必要な時間的な制約のあるワークロードに最適です。

    柔軟な実行クラスは、開始時刻と完了時刻が変化する時間的制約が厳しいジョブに適しています。

    ExecutionClassに設定できるのはglueetl、 AWS Glue バージョン 3.0 以降のジョブとコマンドタイプのみですFLEX。柔軟な実行クラスは Spark ジョブで使用できます。

  • SourceControlDetailsSourceControlDetails オブジェクト。

    ジョブのソース管理設定の詳細。これにより、リモートリポジトリとの間でジョブアーティファクトを同期できます。

  • ProfileName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブに関連付けられた AWS Glue 使用プロファイルの名前。

レスポンス
  • Name – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    このジョブ定義に指定された一意の名前。

エラー
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob アクション (Python: update_job)

既存のジョブ定義を更新します。以前のジョブ定義はこの情報によって完全に上書きされます。

リクエスト
  • JobName – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    更新するジョブ定義の名前。

  • JobUpdate – 必須: JobUpdate オブジェクト。

    ジョブ定義の更新に使用する値を指定します。指定されていない設定は削除されるか、デフォルト値にリセットされます。

  • ProfileName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブに関連付けられた AWS Glue 使用プロファイルの名前。

レスポンス
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    更新されたジョブ定義の名前を返します。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob アクション (Python: get_job)

既存のジョブ定義を取得します。

リクエスト
  • JobName – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    取得するジョブ定義の名前。

レスポンス
  • JobJob オブジェクト。

    リクエストされたジョブ定義。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs アクション (Python: get_jobs)

すべての現在のジョブ定義を取得します。

リクエスト
  • NextToken – UTF-8 文字列。

    継続トークン (これが継続呼び出しの場合)。

  • MaxResults – 1~1000 の数値 (整数)。

    応答の最大サイズ。

応答
  • JobsJob オブジェクトの配列。

    ジョブ定義のリスト。

  • NextToken – UTF-8 文字列。

    継続トークン (一部のジョブ定義がまだ返されていない場合)。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob アクション (Python: delete_job)

指定したジョブ定義を削除します。ジョブ定義が見つからない場合、例外はスローされません。

リクエスト
  • JobName – 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    削除するジョブ定義の名前。

レスポンス
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    削除されたジョブ定義の名前。

エラー
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs アクション (Python: list_jobs)

この AWS アカウントのすべてのジョブリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。

このオペレーションはオプションの Tags フィールドを受け取ります。このフィールドを応答のフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。

リクエスト
  • NextToken – UTF-8 文字列。

    継続トークン (これが継続リクエストの場合)。

  • MaxResults – 1~1000 の数値 (整数)。

    返されるリストの最大サイズ。

  • Tags – キーと値のペアのマップ配列。50 ペア以下。

    各キーは UTF-8 文字列で、1~128 バイト長です。

    各値は UTF-8 文字列で、256 バイト長以下です。

    これらのタグ付きリソースのみを返すように指定します。

レスポンス
  • JobNames – UTF-8 文字列の配列。

    アカウント内のすべてのジョブの名前、または指定されたタグを持つジョブの名前。

  • NextToken – UTF-8 文字列。

    継続トークン (戻されたリストに最後に使用可能なメトリクスが含まれていない場合)。

エラー
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs アクション (Python: batch_get_jobs)

指定されたジョブ名のリストのリソースメタデータのリストを返します。ListJobs オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。

リクエスト
  • JobNames必須: UTF-8 文字列の配列。

    ジョブ名のリスト。これは ListJobs 操作から返された名前であることもあります。

応答
  • JobsJob オブジェクトの配列。

    ジョブ定義のリスト。

  • JobsNotFound – UTF-8 文字列の配列。

    ジョブの名前のリストが見つかりません。

エラー
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException

UpdateSourceControlFromJob アクション (Python: update_source_control_from_job)

ジョブをソース管理リポジトリに同期します。このオペレーションは、 AWS Glue 内部ストアからジョブアーティファクトを取得し、ジョブに設定されているリモートリポジトリにコミットします。

この API は、リポジトリ情報を取り込むオプションのパラメータをサポートしています。

リクエスト
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    リモートリポジトリとの間で同期される AWS Glue ジョブの名前。

  • Provider – UTF-8 文字列。

    リモートリポジトリのプロバイダ。可能な値: GITHUB、AWS_CODE_COMMIT、GITLAB、BITBUCKET。

  • RepositoryName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブのアーティファクトを含むリモートリポジトリの名前。 BitBucket プロバイダーの場合、 には を含めるRepositoryName必要がありますWorkspaceName。形式 <WorkspaceName>/<RepositoryName> を使用します。

  • RepositoryOwner – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブのアーティファクトを含むリモートリポジトリの所有者。

  • BranchName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のオプションのブランチ。

  • Folder – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のオプションのフォルダ。

  • CommitId – UTF-8 文字列、1~40 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のコミット用のコミット ID。

  • AuthStrategy – UTF-8 文字列。

    認証のタイプ。 AWS Secrets Manager に保存されている認証トークン、または個人用アクセストークンです。

  • AuthToken – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    認証トークンの値。

レスポンス
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    AWS Glue ジョブの名前。

エラー
  • AccessDeniedException

  • AlreadyExistsException

  • InvalidInputException

  • ValidationException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

UpdateJobFromSourceControl アクション (Python: update_job_from_source_control)

ソース管理リポジトリからジョブを同期します。このオペレーションは、リモートリポジトリにあるジョブアーティファクトを取得し、これらのアーティファクトで AWS Glue 内部ストアを更新します。

この API は、リポジトリ情報を取り込むオプションのパラメータをサポートしています。

リクエスト
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    リモートリポジトリとの間で同期される AWS Glue ジョブの名前。

  • Provider – UTF-8 文字列。

    リモートリポジトリのプロバイダ。可能な値: GITHUB、AWS_CODE_COMMIT、GITLAB、BITBUCKET。

  • RepositoryName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブのアーティファクトを含むリモートリポジトリの名前。 BitBucket プロバイダーの場合、 には を含めるRepositoryName必要がありますWorkspaceName。形式 <WorkspaceName>/<RepositoryName> を使用します。

  • RepositoryOwner – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブのアーティファクトを含むリモートリポジトリの所有者。

  • BranchName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のオプションのブランチ。

  • Folder – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のオプションのフォルダ。

  • CommitId – UTF-8 文字列、1~40 バイト長、Single-line string pattern に一致。

    リモートリポジトリ内のコミット用のコミット ID。

  • AuthStrategy – UTF-8 文字列。

    認証のタイプ。 AWS Secrets Manager に保存されている認証トークン、または個人用アクセストークンです。

  • AuthToken – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    認証トークンの値。

レスポンス
  • JobName – UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。

    AWS Glue ジョブの名前。

エラー
  • AccessDeniedException

  • AlreadyExistsException

  • InvalidInputException

  • ValidationException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException