AWS Glue
開発者ガイド

ジョブ実行

Jobs Runs API では、AWS Glue における、ジョブの実行の開始、停止、表示と、ジョブのブックマークのリセットに関連するデータ型と API について説明します。

データ型

JobRun の構造

ジョブ実行についての情報が含まれています。

フィールド

  • Id – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブ実行の ID。

  • Attempt – 数値 (整数)。

    このジョブを実行しようと試みた回数。

  • PreviousRunId – UTF-8 文字列、1~255 バイト長。Single-line string pattern に一致。

    このジョブの以前の実行の ID。たとえば、StartJobRun アクションで指定された JobRunId を表します。

  • TriggerName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブ実行を開始したトリガーの名前。

  • JobName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    この実行で使用されているジョブ定義の名前。

  • StartedOn – タイムスタンプ。

    このジョブ実行が開始された日付と時刻。

  • LastModifiedOn – タイムスタンプ。

    このジョブ実行が最後に変更された時刻。

  • CompletedOn – タイムスタンプ。

    このジョブ実行が完了した日付と時刻。

  • JobRunState – UTF-8 文字列 (有効な値: STARTING | RUNNING | STOPPING | STOPPED | SUCCEEDED | FAILED | TIMEOUT)。

    現在のジョブ実行の状態。

  • Arguments – キー/値ペアのマップ配列。

    各キーは UTF-8 文字列です。

    各値は UTF-8 文字列です。

    この実行に関連付けられているジョブの引数。このジョブ実行では、ジョブ定義自体に設定されているデフォルト引数を置き換えます。

    独自のジョブ実行スクリプトが使用する引数だけでなく、AWS Glue が使用する引数もここで指定できます。

    独自のジョブ引数を指定および使用する方法については、『開発者ガイド』の Python での AWS Glue API の呼び出しトピックを参照してください。

    AWS Glue がジョブを設定するために使用するキーと値のペアについては、『開発者ガイド』の「AWS Glue で使用される特別なパラメータ」トピックを参照してください。

  • ErrorMessage – UTF-8 文字列。

    このジョブ実行に関連付けられているエラーメッセージ。

  • PredecessorRuns先行 オブジェクトの配列。

    このジョブ実行に先行するもののリスト。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    この JobRun に割り当てられた AWS Glue データ処理ユニット (DPU) の数。2~100 DPU の範囲で割り当てることができます。デフォルト値は 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • ExecutionTime – 数値 (整数)。

    ジョブ実行でリソースを消費した時間 (秒)。

  • Timeout – 数値 (整数)、1 以上。

    JobRun のタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。これにより、親ジョブで設定したタイムアウト値が上書きされます。

  • MaxCapacity – 数値 (double)。

    このジョブの実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    WorkerType および NumberOfWorkers を使用している場合は Max Capacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブと Apache Spark ETL ジョブのどちらを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブを指定すると (JobCommand.Name="glueetl")、2~100 DPU の範囲で割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

    定義可能なワーカーの最大数は、299 (G.1X) または 149 (G.2X) です。

  • SecurityConfiguration – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブ実行で使用される SecurityConfiguration 構造の名前。

  • LogGroupName – UTF-8 文字列。

    セキュアなログ記録のための、ロググループの名前。AWS KMS を使用して、Amazon CloudWatch のサーバー側で暗号化されます。この名前は /aws-glue/jobs/ を指定できます。その場合、デフォルトの暗号化は NONE です。ロール名および SecurityConfiguration 名 (つまり /aws-glue/jobs-yourRoleName-yourSecurityConfigurationName/) を追加すると、そのセキュリティ設定はロググループの暗号化に使用されます。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ実行通知の設定プロパティを指定します。

  • GlueVersion – UTF-8 文字列、1 ~ 255 バイト長、Custom string pattern #13 に一致。

    Glue のバージョンは、AWS Glue がサポートする Apache Spark および Python のバージョンを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。

    利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、開発者ガイドの「Glue のバージョン」を参照してください。

    Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。

先行構造

このジョブ実行をトリガーした条件トリガーの述語に使用されたジョブ実行。

フィールド

  • JobName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    先行するジョブ実行で使用したジョブ定義の名前。

  • RunId – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    先行するジョブ実行のジョブ実行 ID。

JobBookmarkEntry 構造

ジョブの処理を再開できるポイントを定義します。

フィールド

  • JobName – UTF-8 文字列。

    該当するジョブの名前。

  • Version – 数値 (整数)。

    ジョブのバージョン。

  • Run – 数値 (整数)。

    実行 ID 番号。

  • Attempt – 数値 (整数)。

    試行 ID 番号。

  • UTF-8 文字列。

    前回のジョブ実行に関連付けられた一意の実行識別子。

  • UTF-8 文字列。

    実行 ID 番号。

  • JobBookmark – UTF-8 文字列。

    ブックマーク自体。

BatchStopJobRunSuccessfulSubmission 構造

指定された JobRun を停止するリクエストの成功を記録します。

フィールド

  • JobName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    停止したジョブ実行で使用したジョブ定義の名前。

  • JobRunId – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    停止したジョブ実行の JobRunId

BatchStopJobRunError 構造

指定したジョブ実行を停止しようとして発生したエラーを記録します。

フィールド

  • JobName – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    該当するジョブ実行で使用したジョブ定義の名前。

  • JobRunId – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    該当するジョブ実行の JobRunId

  • ErrorDetailErrorDetail オブジェクト。

    発生したエラーに関する詳細を指定します。

オペレーション

StartJobRun アクション (Python: start_job_run)

ジョブ定義を使用してジョブ実行を開始します。

リクエスト

  • JobName必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    使用するジョブ定義の名前。

  • JobRunId – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    再試行する以前の JobRun の ID。

  • Arguments – キー/値ペアのマップ配列。

    各キーは UTF-8 文字列です。

    各値は UTF-8 文字列です。

    特にこの実行のためのジョブの引数。このジョブ実行では、ジョブ定義自体に設定されているデフォルト引数を置き換えます。

    独自のジョブ実行スクリプトが使用する引数だけでなく、AWS Glue が使用する引数もここで指定できます。

    独自のジョブ引数を指定および使用する方法については、『開発者ガイド』の Python での AWS Glue API の呼び出しトピックを参照してください。

    AWS Glue がジョブを設定するために使用するキーと値のペアについては、『開発者ガイド』の「AWS Glue で使用される特別なパラメータ」トピックを参照してください。

  • AllocatedCapacity – 数値 (整数)。

    このフィールドは廃止されました。代わりに MaxCapacity を使用します。

    この JobRun に割り当てる AWS Glue データ処理ユニット (DPU) の数。2~100 DPU の範囲で割り当てることができます。デフォルト値は 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

  • Timeout – 数値 (整数)、1 以上。

    JobRun のタイムアウト (分)。ジョブ実行が終了済みになって TIMEOUT ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。これにより、親ジョブで設定したタイムアウト値が上書きされます。

  • MaxCapacity – 数値 (double)。

    このジョブの実行に割り当てられる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ」を参照してください。

    WorkerType および NumberOfWorkers を使用している場合は Max Capacity を設定しないでください。

    MaxCapacity に割り当てることができる値は、Python シェルジョブと Apache Spark ETL ジョブのどちらを実行しているかによって異なります。

    • Python シェルジョブを指定すると (JobCommand.Name="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。

    • Apache Spark ETL ジョブを指定すると (JobCommand.Name="glueetl")、2~100 DPU の範囲で割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。

  • SecurityConfiguration – UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    このジョブ実行で使用される SecurityConfiguration 構造の名前。

  • NotificationPropertyNotificationProperty オブジェクト。

    ジョブ実行通知の設定プロパティを指定します。

  • WorkerType – UTF-8 文字列 (有効な値: Standard="" | G.1X="" | G.2X="")。

    ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。使用できる値は、Standard、G.1X、または G.2X です。

    • Standard ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。

    • G.1X ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、64 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

    • G.2X ワーカータイプでは、各ワーカーは 8 vCPU、32 GB のメモリ、128 GB のディスク、ワーカーあたり 1 個のエグゼキュターを提供します。

  • NumberOfWorkers – 数値 (整数)。

    ジョブの実行時に割り当てられた、定義済みの workerType ワーカー数。

    定義可能なワーカーの最大数は、299 (G.1X) または 149 (G.2X) です。

レスポンス

  • JobRunId – UTF-8 文字列。1~255 バイト長。Single-line string pattern に一致。

    このジョブ実行に割り当てられた ID。

エラー

  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentRunsExceededException

BatchStopJobRun アクション (Python: batch_stop_job_run)

指定したジョブ定義の 1 つ以上のジョブ実行を停止します。

リクエスト

  • JobName必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブ実行を停止するジョブ定義の名前。

  • JobRunIds必須: UTF-8 文字列の配列。1 ~ 25 個の文字列。

    このジョブ定義で停止する JobRunIds のリスト。

レスポンス

  • SuccessfulSubmissions – は、次の要素を含む BatchStopJobRunSuccessfulSubmission オブジェクトの配列です。

    正常に送信された停止対象の JobRun のリスト。

  • ErrorsBatchStopJobRunError オブジェクトの配列。

    JobRuns を停止しようとして発生したエラーのリスト。各エラーが発生した JobRunId とエラーの詳細が含まれます。

エラー

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

GetJobRun アクション (Python: get_job_run)

指定されたジョブ実行のメタデータを取得します。

リクエスト

  • JobName必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    実行中のジョブ定義の名前。

  • RunId必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    ジョブ実行の ID。

  • PredecessorsIncluded – ブール値。

    以前の実行のリストが返される場合は、true です。

レスポンス

  • JobRunJobRun オブジェクト。

    リクエスト済みのジョブ実行のメタデータ。

エラー

  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobRuns アクション (Python: get_job_runs)

特定のジョブ定義に該当するすべての実行のメタデータを取得します。

リクエスト

  • JobName必須: UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。

    すべてのジョブ実行を取得する先のジョブ定義の名前。

  • NextToken – UTF-8 文字列。

    継続トークン (これが継続呼び出しの場合)。

  • MaxResults – 数値 (整数)、1 ~ 1000。

    レスポンスの最大サイズ。

レスポンス

  • JobRunsJobRun オブジェクトの配列。

    ジョブ実行のメタデータオブジェクトのリスト。

  • NextToken – UTF-8 文字列。

    リクエストされたジョブ実行のすべてがまだ返されていない場合は、継続トークン。

エラー

  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

ResetJobBookmark アクション (Python: reset_job_bookmark)

ブックマークエントリをリセットします。

リクエスト

  • JobName必須: UTF-8 文字列。

    該当するジョブの名前。

  • UTF-8 文字列。

    このジョブの実行に関連付けられた一意の実行識別子。

レスポンス

  • JobBookmarkEntryJobBookmarkEntry オブジェクト。

    ブックマークエントリのリセット。

エラー

  • EntityNotFoundException

  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException