ジョブ
Jobs API では、AWS Glue でのジョブの作成、更新、削除、表示に関連するデータ型と API について説明します。
データ型
Job 構造
ジョブ定義を指定します。
フィールド
-
Name
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブ定義に割り当てる名前。
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。ジョブの説明。
-
このフィールドは、将来の利用のために予約されています。
-
このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。
-
このジョブ定義を作成した日時。
-
このジョブ定義を変更した最後の時点。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– JobCommand オブジェクト。このジョブを実行する
JobCommand
。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
AWS Glue がジョブを設定するために使用するキーと値のペアについては、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブの上書き不可能な引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
ジョブ実行の失敗後に、このジョブを再試行する最大回数。
-
このフィールドは廃止されました。代わりに
MaxCapacity
を使用します。このジョブの実行に割り当てられた AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 -
ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。 -
Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 WorkerType
およびNumberOfWorkers
を使用している場合はMax Capacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブ、Apache Spark ETL ジョブ、Apache Spark ストリーミング ETL ジョブのいずれを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定する場合は、最低 2 つの DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
一方、Glue バージョン 2.0 ジョブでは、
Maximum capacity
を指定することもできません。代わりに、Worker type
とNumber of workers
を指定する必要があります。 -
-
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。使用できる値は、Standard、G.1X、または G.2X です。
-
Standard
ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。 -
G.1X
ワーカータイプでは、各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、64 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、128 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。
-
-
ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。Glue バージョンは、AWS Glue がサポートする Apache Spark と Python のバージョンを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。
利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #29 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
ExecutionProperty 構造
ジョブの実行プロパティ。
フィールド
NotificationProperty 構造
通知の設定プロパティを指定します。
JobCommand 構造
ジョブの実行時に実行するコードを指定します。
フィールド
-
ジョブコマンドの名前。Apache Spark ETL ジョブの場合は、
glueetl
を指定する必要があります。Python シェルジョブの場合は、pythonshell
を指定する必要があります。Apache Spark ストリーミング ETL ジョブの場合は、gluestreaming
を指定する必要があります。 -
ScriptLocation
- UTF-8 文字列。400000 バイト長以下。ジョブを実行するスクリプトへの Amazon Simple Storage Service (Amazon S3) パスを指定します。
-
PythonVersion
– UTF-8 文字列、「Custom string pattern #16」に一致。Python シェルジョブを実行するために使用中の Python のバージョン。指定できる値は、2 または 3 です。
ConnectionsList 構造
ジョブが使用する接続を指定します。
JobUpdate 構造
既存のジョブ定義を更新するための情報を指定します。以前のジョブ定義はこの情報によって完全に上書きされます。
フィールド
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。定義するジョブの説明。
-
このフィールドは、将来の利用のために予約されています。
-
このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN) (必須)。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– JobCommand オブジェクト。このジョブを実行する
JobCommand
(必須)。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
このジョブのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
AWS Glue がジョブを設定するために使用するキーと値のペアについては、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブの上書き不可能な引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
失敗した場合にこのジョブを再試行する最大回数。
-
このフィールドは廃止されました。代わりに
MaxCapacity
を使用します。このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 -
ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。 -
Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 WorkerType
およびNumberOfWorkers
を使用している場合はMax Capacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブと Apache Spark ETL ジョブのどちらを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定する場合は、最低 2 つの DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
一方、Glue バージョン 2.0 ジョブでは、
Maximum capacity
を指定することもできません。代わりに、Worker type
とNumber of workers
を指定する必要があります。 -
-
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。使用できる値は、Standard、G.1X、または G.2X です。
-
Standard
ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。 -
G.1X
ワーカータイプでは、各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、64 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、128 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。
-
-
ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。Glue バージョンは、AWS Glue がサポートする Apache Spark と Python のバージョンを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。
利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #29 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
操作
CreateJob アクション (Python: create_job)
新しいジョブ定義を作成します。
リクエスト
-
Name
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。このジョブ定義に割り当てる名前。アカウント内で一意にする必要があります。
-
Description
– 説明文字列、2048 バイト長以下、URI address multi-line string pattern に一致。定義するジョブの説明。
-
このフィールドは、将来の利用のために予約されています。
-
このジョブに関連付けられている IAM ロールの名前または Amazon リソースネーム (ARN)。
-
ExecutionProperty
– ExecutionProperty オブジェクト。このジョブに許可される同時実行の最大数を指定する
ExecutionProperty
。 -
Command
– 必須: JobCommand オブジェクト。このジョブを実行する
JobCommand
。 -
DefaultArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
このジョブのデフォルトの引数。
独自のジョブ実行スクリプトが消費する引数だけでなく、AWS Glue が消費する引数もここで指定できます。
ジョブ引数はログに記録される場合があります。プレーンテキストのシークレットを引数として渡さないでください。ジョブ内に保持する場合は、AWS Glue 接続、AWS Secrets Manager または他のシークレット管理メカニズムから取得します。
独自のジョブ引数を指定および使用する方法については、デベロッパーガイドのトピック「Calling AWS Glue APIs in Python」を参照してください。
AWS Glue がジョブを設定するために使用するキーと値のペアについては、デベロッパーガイドのトピック「Special Parameters Used by AWS Glue」を参照してください。
-
NonOverridableArguments
– キーバリューペアのマップ配列。各キーは UTF-8 文字列。
各値は UTF-8 文字列。
名前と値のペアとして指定された、このジョブの上書き不可能な引数。
-
Connections
– ConnectionsList オブジェクト。このジョブに使用される接続。
-
失敗した場合にこのジョブを再試行する最大回数。
-
このパラメータは廃止されました。代わりに
MaxCapacity
を使用します。このジョブに割り当てる AWS Glue データ処理ユニット (DPU) の数。最低 2 つの DPUを割り当てることができます。デフォルトは 10 です。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 -
ジョブのタイムアウト (分)。ジョブ実行が終了済みになって
TIMEOUT
ステータスに入るまでに、ジョブ実行でリソースを消費できる最大時間です。デフォルト値は 2,880 分 (48 時間) です。 -
Glue バージョン 1.0 以前のジョブで、標準ワーカータイプを使用して、このジョブの実行時に割り当てることができる AWS Glue データ処理ユニット (DPU) の数。DPU は処理能力を相対的に測定するもので、4 個の vCPU のコンピューティング性能と 16 GB のメモリで構成されています。詳細については、「AWS Glue 料金表ページ
」を参照してください。 WorkerType
およびNumberOfWorkers
を使用している場合はMax Capacity
を設定しないでください。MaxCapacity
に割り当てることができる値は、Python シェルジョブと Apache Spark ETL ジョブのどちらを実行しているかによって異なります。-
Python シェルジョブを指定すると (
JobCommand.Name
="pythonshell")、0.0625 または 1 DPU のいずれかを割り当てることができます。デフォルトは 0.0625 DPU です。 -
Apache Spark ETL ジョブ (
JobCommand.Name
="glueetl") または Apache Spark ストリーミング ETL ジョブ (JobCommand.Name
="gluestreaming") を指定する場合は、最低 2 つの DPU を割り当てることができます。デフォルトでは 10 DPU になっています。このジョブタイプには、小数の DPU 割り当てを指定できません。
一方、Glue バージョン 2.0 ジョブでは、
Maximum capacity
を指定することもできません。代わりに、Worker type
とNumber of workers
を指定する必要があります。 -
-
SecurityConfiguration
– UTF-8 文字列、1~255 バイト長、Single-line string pattern に一致。このジョブで使用される
SecurityConfiguration
構造の名前。 -
各キーは UTF-8 文字列で、1~128 バイト長です。
各値は UTF-8 文字列で、256 バイト長以下です。
このジョブと一緒に使用するタグです。ジョブへのアクセスを制限するためにタグを使用することができます。AWS Glue のタグの詳細については、デベロッパーガイドの「AWS Tags in AWS Glue」を参照してください。
-
NotificationProperty
– NotificationProperty オブジェクト。ジョブ通知の設定プロパティを指定します。
-
GlueVersion
– UTF-8 文字列、1~255 バイト長、Custom string pattern #15 に一致。Glue バージョンは、AWS Glue がサポートする Apache Spark と Python のバージョンを決定します。Python バージョンは、Spark タイプのジョブでサポートされるバージョンを示します。
利用可能な AWS Glue のバージョン、および対応する Spark および Python のバージョンの詳細については、デベロッパーガイドの「Glue version」を参照してください。
Glue バージョンを指定せずに作成されたジョブは、デフォルトで Glue 0.9 に設定されます。
-
ジョブの実行時に割り当てられた、定義済みの
workerType
ワーカー数。 -
WorkerType
– UTF-8 文字列 (有効な値:Standard=""
|G.1X=""
|G.2X=""
)。ジョブの実行時に割り当てられる事前定義済みのワーカーの種類。使用できる値は、Standard、G.1X、または G.2X です。
-
Standard
ワーカータイプでは、各ワーカーは 4 vCPU、16 GB のメモリ、50 GB のディスク、ワーカーあたり 2 個のエグゼキュターを提供します。 -
G.1X
ワーカータイプでは、各ワーカーは 1 DPU (4 vCPU、16 GB のメモリ、64 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。 -
G.2X
ワーカータイプでは、各ワーカーは 2 DPU (8 vCPU、32 GB のメモリ、128 GB のディスク) にマッピングされており、ワーカーごとに 1 個のエグゼキュターを提供します。メモリを大量に消費するジョブには、このワーカータイプをお勧めします。
-
-
CodeGenConfigurationNodes
– キーバリューペアのマップ配列。各キーは、Custom string pattern #29 に適合する UTF-8 文字列です。
各値は CodeGenConfigurationNode オブジェクトです。
Glue Studio ビジュアルコンポーネントと、Glue Studio によるコード生成の両方がベースとする、有向非巡回グラフの表現。
応答
-
Name
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。このジョブ定義に指定された一意の名前。
エラー
InvalidInputException
IdempotentParameterMismatchException
AlreadyExistsException
InternalServiceException
OperationTimeoutException
ResourceNumberLimitExceededException
ConcurrentModificationException
UpdateJob アクション (Python: update_job)
既存のジョブ定義を更新します。以前のジョブ定義はこの情報によって完全に上書きされます。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。更新するジョブ定義の名前。
-
JobUpdate
– 必須: JobUpdate オブジェクト。ジョブ定義の更新に使用する値を指定します。指定されていない設定は削除されるか、デフォルト値にリセットされます。
応答
-
JobName
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。更新されたジョブ定義の名前を返します。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
ConcurrentModificationException
GetJob アクション (Python: get_job)
既存のジョブ定義を取得します。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。取得するジョブ定義の名前。
応答
-
Job
– Job オブジェクト。リクエストされたジョブ定義。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
GetJobs アクション (Python: get_jobs)
すべての現在のジョブ定義を取得します。
応答
-
Jobs
– Job オブジェクトの配列。ジョブ定義のリスト。
-
継続トークン (一部のジョブ定義がまだ返されていない場合)。
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
DeleteJob アクション (Python: delete_job)
指定したジョブ定義を削除します。ジョブ定義が見つからない場合、例外はスローされません。
リクエスト
-
JobName
– 必須: UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。削除するジョブ定義の名前。
応答
-
JobName
– UTF-8 文字列、1~255 バイト長、「Single-line string pattern」に一致。削除されたジョブ定義の名前。
エラー
InvalidInputException
InternalServiceException
OperationTimeoutException
ListJobs アクション (Python: list_jobs)
この AWS アカウントのすべてのジョブリソース、または指定されたタグを持つリソースの名前を取得します。このオペレーションにより、アカウントで利用可能なリソースとその名前を確認できます。
このオペレーションはオプションの Tags
フィールドを受け取ります。このフィールドをレスポンスのフィルターとして使用すると、タグ付きリソースをグループとして取得できます。タグフィルタリングの使用を選択した場合は、タグが付いたリソースのみが取得されます。
リクエスト
応答
エラー
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
BatchGetJobs アクション (Python: batch_get_jobs)
指定されたジョブ名のリストのリソースメタデータのリストを返します。ListJobs
オペレーションを呼び出した後で、このオペレーションを呼び出すことで、アクセス許可が付与されているデータにアクセスできます。このオペレーションは、タグを使用するアクセス許可条件を含め、すべての IAM のアクセス許可をサポートします。
応答
-
Jobs
– Job オブジェクトの配列。ジョブ定義のリスト。
-
ジョブの名前のリストが見つかりません。
エラー
InternalServiceException
OperationTimeoutException
InvalidInputException