Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
L'API Jobs descrive i tipi di dati e l'API relativi alla creazione, all'aggiornamento, all'eliminazione o alla visualizzazione di lavori in. AWS Glue
Tipi di dati
Struttura del processo
Specifica una definizione del processo.
Campi
-
Name
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome assegnato alla definizione del processo.
-
JobMode
: stringa UTF-8 (valori validi:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Una modalità che descrive come è stato creato un lavoro. I valori validi sono:
-
SCRIPT
- Il lavoro è stato creato utilizzando l'editor di script di AWS Glue Studio. -
VISUAL
- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio. -
NOTEBOOK
- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.
Quando il
JobMode
campo è mancante o nullo,SCRIPT
viene assegnato come valore predefinito. -
-
JobRunQueuingEnabled
: booleano.Speciifica se l'accodamento dei job run è abilitato per le esecuzioni di job relative a questo job.
Il valore true indica che l'accodamento delle esecuzioni dei processi è abilitato per le esecuzioni dei processi. Se false o non è compilato, le esecuzioni dei job non verranno prese in considerazione per l'accodamento.
Se questo campo non corrisponde al valore impostato nell'esecuzione del processo, verrà utilizzato il valore del campo Job Run.
-
Description
: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.Descrizione del processo.
-
LogUri
: stringa UTF-8.Questo campo è riservato per uso futuro.
-
Role
: stringa UTF-8.Il nome o ARN (Amazon Resource Name) del ruolo IAM associato a questo processo.
-
CreatedOn
: timestamp.La data e l'ora in cui è stata creata la specifica della definizione del processo.
-
LastModifiedOn
: timestamp.L'ultimo point-in-time in cui è stata modificata la definizione del processo.
-
ExecutionProperty
: un oggetto ExecutionProperty.ExecutionProperty
che specifica il numero massimo di esecuzioni simultanee consentite per il processo. -
Command
: un oggetto JobCommand.Il
JobCommand
che esegue questo lavoro. -
DefaultArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.
Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del processo, nonché gli argomenti utilizzati dallo stesso script. AWS Glue
Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.
Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.
-
NonOverridableArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.
-
Connections
: un oggetto ConnectionsList.Le connessioni utilizzate per questo processo.
-
MaxRetries
: numero (intero).Il numero massimo di volte in cui è possibile riprovare questo processo dopo un JobRun errore.
-
AllocatedCapacity
: numero (intero).in quanto obsoleto. Usare invece
MaxCapacity
.Il numero di unità di elaborazione AWS Glue dati (DPUs) assegnate alle esecuzioni di questo processo. È possibile allocarne almeno 2 DPUs; l'impostazione predefinita è 10. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. -
Timeout
: numero (intero), almeno 1.Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato
TIMEOUT
.I lavori devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. In caso contrario, i processi genereranno un'eccezione.
Quando il valore viene lasciato vuoto, il timeout è predefinito a 2880 minuti.
Tutti i AWS Glue lavori esistenti con un valore di timeout superiore a 7 giorni verranno impostati automaticamente su 7 giorni. Ad esempio, se hai specificato un timeout di 20 giorni per un processo batch, questo verrà interrotto il settimo giorno.
Per i lavori di streaming, se hai impostato una finestra di manutenzione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.
-
MaxCapacity
: numero (doppio).Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore
Maximum capacity
. Si deve invece specificare unWorker type
e unNumber of workers
.Non impostare
MaxCapacity
se usiWorkerType
eNumberOfWorkers
.Il valore che è possibile allocare per
MaxCapacity
varia a seconda che si esegua un processo shell di Python, un processo ETL di Apache Spark o un processo ETL di streaming di Apache Spark:-
Quando si specifica un processo shell di Python (
JobCommand.Name
="pythonshell"), è possibile allocare 0,0625 o 1 DPU. Il valore di default è 0,0625 DPU. -
Quando specificate un job ETL di Apache Spark (
JobCommand.Name
="glueetl») o un job ETL di streaming Apache Spark (="gluestreaming»), potete allocare da 2 a 100.JobCommand.Name
DPUs L'impostazione predefinita è 10. DPUs Questo tipo di processo non può avere un'allocazione DPU frazionata.
-
-
WorkerType
: stringa UTF-8 (valori validi:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.
-
Per il tipo di
G.1X
worker, ogni worker esegue il mapping a 1 DPU (4 vCPUs, 16 GB di memoria) con disco da 94 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.2X
worker, ogni worker esegue il mapping a 2 DPU (8 vCPUs, 32 GB di memoria) con disco da 138 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.4X
worker, ogni worker esegue il mapping a 4 DPU (16 vCPUs, 64 GB di memoria) con disco da 256 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma). -
Per il tipo di
G.8X
worker, ogni worker esegue il mapping a 8 DPU (32 vCPUs, 128 GB di memoria) con disco da 512 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore.G.4X
-
Per il tipo di
G.025X
worker, ogni worker esegue il mapping a 0,25 DPU (2 vCPUs, 4 GB di memoria) con disco da 84 GB e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming AWS Glue versione 3.0 o successiva. -
Per il tipo di
Z.2X
worker, ogni worker esegue il mapping su 2 M-DPU (8vCPUs, 64 GB di memoria) con disco da 128 GB e fornisce fino a 8 Ray worker in base all'autoscaler.
-
-
NumberOfWorkers
: numero (intero).Il numero di worker di un
workerType
specifico allocati quando viene eseguito un processo. -
SecurityConfiguration
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della struttura
SecurityConfiguration
da usare con questo processo. -
NotificationProperty
: un oggetto NotificationProperty.Specifica le proprietà di configurazione di una notifica di processo.
-
Running
: booleano.Questo campo è riservato per uso futuro.
-
GlueVersion
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #47.Nei job Spark,
GlueVersion
determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.I processi Ray devono impostare il valore di
GlueVersion
su4.0
o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametroRuntime
del comando del processo.Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.
Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.
-
CodeGenConfigurationNodes
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8 corrispondente al Custom string pattern #58.
Ogni valore è un oggetto CodeGenConfigurationNode.
La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.
-
ExecutionClass
: una stringa UTF-8, non superiore a 16 byte di lunghezza (valori validi:FLEX=""
|STANDARD=""
).Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.
La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.
Potranno essere
ExecutionClass
impostati solo i lavori con la AWS Glue versione 3.0 e successive eglueetl
il tipo di comando.FLEX
La classe di esecuzione flessibile è disponibile per i processi Spark. -
SourceControlDetails
: un oggetto SourceControlDetails.I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.
-
MaintenanceWindow
: stringa UTF-8, corrispondente a Custom string pattern #34.Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.
AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle 10:00 GMT, i lavori verranno riavviati tra le 10:00 GMT e le 13:00 GMT.
-
ProfileName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome di un profilo di AWS Glue utilizzo associato al lavoro.
ExecutionProperty struttura
Una proprietà di esecuzione di un processo.
Campi
-
MaxConcurrentRuns
: numero (intero).Il numero massimo di esecuzioni simultanee consentite per il processo. Il valore di default è 1. Viene restituito un errore al raggiungimento della soglia. Il valore massimo che è possibile specificare è controllato da un limite di servizio.
NotificationProperty struttura
Specifica le proprietà di configurazione di una notifica.
Campi
-
NotifyDelayAfter
: numero (intero), almeno 1.Dopo l'inizio dell'esecuzione di un processo, la quantità di minuti da attendere prima di inviare una notifica di ritardo dell'esecuzione di un processo.
JobCommand struttura
Specifica il codice eseguito quando viene eseguito un processo.
Campi
-
Name
: stringa UTF-8.Il nome del comando del processo. Per un processo ETL Apache Spark, deve essere
glueetl
. Per un processo shell Python, deve esserepythonshell
. Per un processo ETL di streaming Apache Spark, deve esseregluestreaming
. Per un processo Ray, questo deve essereglueray
. -
ScriptLocation
: stringa UTF-8, non superiore a 400000 byte di lunghezza.Specifica il percorso di Amazon Simple Storage Service (Amazon S3) per uno script che esegue un processo.
-
PythonVersion
: stringa UTF-8, corrispondente a Custom string pattern #48.La versione Python utilizzata per eseguire un processo shell Python. I valori consentiti sono 2 o 3.
-
Runtime
: stringa UTF-8, non superiore a 64 byte di lunghezza, corrispondente a Custom string pattern #33.Nei processi Ray, Runtime viene utilizzato per specificare le versioni di Ray, Python e librerie aggiuntive disponibili nell'ambiente. Questo campo non viene utilizzato in altri tipi di processo. Per i valori dell'ambiente di runtime supportati, consultate Supported Ray runtime Environments nella AWS Glue Developer Guide.
ConnectionsList struttura
Specifica le connessioni utilizzate da un processo.
Campi
-
Connections
: una matrice di stringhe UTF-8.Un elenco di connessioni utilizzate dal processo.
JobUpdate struttura
Specifica le informazioni utilizzate per aggiornare una definizione del processo esistente. La precedente definizione di processo viene completamente sovrascritta da questa informazione.
Campi
-
JobMode
: stringa UTF-8 (valori validi:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Una modalità che descrive come è stato creato un lavoro. I valori validi sono:
-
SCRIPT
- Il lavoro è stato creato utilizzando l'editor di script di AWS Glue Studio. -
VISUAL
- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio. -
NOTEBOOK
- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.
Quando il
JobMode
campo è mancante o nullo,SCRIPT
viene assegnato come valore predefinito. -
-
JobRunQueuingEnabled
: booleano.Speciifica se l'accodamento dei job run è abilitato per le esecuzioni di job relative a questo job.
Il valore true indica che l'accodamento delle esecuzioni dei processi è abilitato per le esecuzioni dei processi. Se false o non è compilato, le esecuzioni dei job non verranno prese in considerazione per l'accodamento.
Se questo campo non corrisponde al valore impostato nell'esecuzione del processo, verrà utilizzato il valore del campo Job Run.
-
Description
: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.Descrizione del processo da definire.
-
LogUri
: stringa UTF-8.Questo campo è riservato per uso futuro.
-
Role
: stringa UTF-8.Il nome o ARN (Amazon Resource Name) del ruolo IAM associato a questo processo (richiesto).
-
ExecutionProperty
: un oggetto ExecutionProperty.ExecutionProperty
che specifica il numero massimo di esecuzioni simultanee consentite per il processo. -
Command
: un oggetto JobCommand.JobCommand
che esegue il processo (richiesto). -
DefaultArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.
Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del processo, nonché gli argomenti utilizzati dallo stesso script. AWS Glue
Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.
Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.
-
NonOverridableArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.
-
Connections
: un oggetto ConnectionsList.Le connessioni utilizzate per questo processo.
-
MaxRetries
: numero (intero).Il numero massimo di tentativi per riprovare il processo se ha esito negativo.
-
AllocatedCapacity
: numero (intero).in quanto obsoleto. Usare invece
MaxCapacity
.Il numero di unità di elaborazione AWS Glue dati (DPUs) da allocare a questo lavoro. È possibile allocarne almeno 2 DPUs; l'impostazione predefinita è 10. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. -
Timeout
: numero (intero), almeno 1.Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato
TIMEOUT
.I lavori devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. In caso contrario, i processi genereranno un'eccezione.
Quando il valore viene lasciato vuoto, il timeout è predefinito a 2880 minuti.
Tutti i AWS Glue lavori esistenti con un valore di timeout superiore a 7 giorni verranno impostati automaticamente su 7 giorni. Ad esempio, se hai specificato un timeout di 20 giorni per un processo batch, questo verrà interrotto il settimo giorno.
Per i lavori di streaming, se hai impostato una finestra di manutenzione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.
-
MaxCapacity
: numero (doppio).Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore
Maximum capacity
. Si deve invece specificare unWorker type
e unNumber of workers
.Non impostare
MaxCapacity
se usiWorkerType
eNumberOfWorkers
.Il valore che è possibile allocare per
MaxCapacity
varia a seconda che si esegua un processo shell di Python, un processo ETL di Apache Spark o un processo ETL di streaming di Apache Spark:-
Quando si specifica un processo shell di Python (
JobCommand.Name
="pythonshell"), è possibile allocare 0,0625 o 1 DPU. Il valore di default è 0,0625 DPU. -
Quando specificate un job ETL di Apache Spark (
JobCommand.Name
="glueetl») o un job ETL di streaming Apache Spark (="gluestreaming»), potete allocare da 2 a 100.JobCommand.Name
DPUs L'impostazione predefinita è 10. DPUs Questo tipo di processo non può avere un'allocazione DPU frazionata.
-
-
WorkerType
: stringa UTF-8 (valori validi:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.
-
Per il tipo di
G.1X
worker, ogni worker esegue il mapping a 1 DPU (4 vCPUs, 16 GB di memoria) con disco da 94 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.2X
worker, ogni worker esegue il mapping a 2 DPU (8 vCPUs, 32 GB di memoria) con disco da 138 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.4X
worker, ogni worker esegue il mapping a 4 DPU (16 vCPUs, 64 GB di memoria) con disco da 256 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma). -
Per il tipo di
G.8X
worker, ogni worker esegue il mapping a 8 DPU (32 vCPUs, 128 GB di memoria) con disco da 512 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore.G.4X
-
Per il tipo di
G.025X
worker, ogni worker esegue il mapping a 0,25 DPU (2 vCPUs, 4 GB di memoria) con disco da 84 GB e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming AWS Glue versione 3.0 o successiva. -
Per il tipo di
Z.2X
worker, ogni worker esegue il mapping su 2 M-DPU (8vCPUs, 64 GB di memoria) con disco da 128 GB e fornisce fino a 8 Ray worker in base all'autoscaler.
-
-
NumberOfWorkers
: numero (intero).Il numero di worker di un
workerType
specifico allocati quando viene eseguito un processo. -
SecurityConfiguration
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della struttura
SecurityConfiguration
da usare con questo processo. -
NotificationProperty
: un oggetto NotificationProperty.Specifica le proprietà di configurazione di una notifica di un processo.
-
GlueVersion
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #47.Nei job Spark,
GlueVersion
determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.I processi Ray devono impostare il valore di
GlueVersion
su4.0
o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametroRuntime
del comando del processo.Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.
Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.
-
CodeGenConfigurationNodes
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8 corrispondente al Custom string pattern #58.
Ogni valore è un oggetto CodeGenConfigurationNode.
La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.
-
ExecutionClass
: una stringa UTF-8, non superiore a 16 byte di lunghezza (valori validi:FLEX=""
|STANDARD=""
).Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.
La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.
Potranno essere
ExecutionClass
impostati solo i lavori con la AWS Glue versione 3.0 e successive eglueetl
il tipo di comando.FLEX
La classe di esecuzione flessibile è disponibile per i processi Spark. -
SourceControlDetails
: un oggetto SourceControlDetails.I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.
-
MaintenanceWindow
: stringa UTF-8, corrispondente a Custom string pattern #34.Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.
AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle 10:00 GMT, i lavori verranno riavviati tra le 10:00 GMT e le 13:00 GMT.
-
ProfileName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome di un profilo di AWS Glue utilizzo associato al lavoro.
SourceControlDetails struttura
I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.
Campi
-
Provider
: stringa UTF-8 (valori validi:GITHUB
|AWS_CODE_COMMIT
).Il provider per il repository remoto.
-
Repository
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.Il nome del repository remoto che contiene gli artefatti del processo.
-
Owner
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.Il proprietario del repository remoto che contiene gli artefatti del processo.
-
Branch
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.Un ramo opzionale nel repository remoto.
-
Folder
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.Una cartella opzionale nel repository remoto.
-
LastCommitId
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.L'ultimo ID di commit per un commit nel repository remoto.
-
LastSyncTimestamp
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.La data e l'ora in cui è stata eseguita l'ultima sincronizzazione di processo.
-
AuthStrategy
: stringa UTF-8 (valori validi:PERSONAL_ACCESS_TOKEN
|AWS_SECRETS_MANAGER
).Il tipo di autenticazione, che può essere un token di autenticazione memorizzato in AWS Secrets Manager o un token di accesso personale.
-
AuthToken
: stringa UTF-8, non inferiore a 1 o superiore a 512 byte di lunghezza.Il valore di un token di autorizzazione.
Operazioni
CreateJob azione (Python: create_job)
Crea una nuova definizione del processo.
Richiesta
-
Name
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome assegnato alla definizione del processo. Deve essere univoco all'interno dell'account .
-
JobMode
: stringa UTF-8 (valori validi:SCRIPT=""
|VISUAL=""
|NOTEBOOK=""
).Una modalità che descrive come è stato creato un lavoro. I valori validi sono:
-
SCRIPT
- Il lavoro è stato creato utilizzando l'editor di script di AWS Glue Studio. -
VISUAL
- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio. -
NOTEBOOK
- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.
Quando il
JobMode
campo è mancante o nullo,SCRIPT
viene assegnato come valore predefinito. -
-
JobRunQueuingEnabled
: booleano.Speciifica se l'accodamento dei job run è abilitato per le esecuzioni di job relative a questo job.
Il valore true indica che l'accodamento delle esecuzioni dei processi è abilitato per le esecuzioni dei processi. Se false o non è compilato, le esecuzioni dei job non verranno prese in considerazione per l'accodamento.
Se questo campo non corrisponde al valore impostato nell'esecuzione del processo, verrà utilizzato il valore del campo Job Run.
-
Description
: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.Descrizione del processo da definire.
-
LogUri
: stringa UTF-8.Questo campo è riservato per uso futuro.
-
Role
. Obbligatorio: stringa UTF-8.Il nome o ARN (Amazon Resource Name) del ruolo IAM associato a questo processo.
-
ExecutionProperty
: un oggetto ExecutionProperty.ExecutionProperty
che specifica il numero massimo di esecuzioni simultanee consentite per il processo. -
Command
: obbligatorio: un oggetto JobCommand.Il
JobCommand
che esegue questo lavoro. -
DefaultArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.
Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del processo, nonché gli argomenti utilizzati dallo stesso script. AWS Glue
Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.
Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.
Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.
-
NonOverridableArguments
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8.
Ogni valore è una stringa UTF-8.
Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.
-
Connections
: un oggetto ConnectionsList.Le connessioni utilizzate per questo processo.
-
MaxRetries
: numero (intero).Il numero massimo di tentativi per riprovare il processo se ha esito negativo.
-
AllocatedCapacity
: numero (intero).Questo parametro è obsoleto. Usare invece
MaxCapacity
.Il numero di unità di elaborazione AWS Glue dati (DPUs) da allocare a questo Job. È possibile allocarne almeno 2 DPUs; l'impostazione predefinita è 10. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. -
Timeout
: numero (intero), almeno 1.Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato
TIMEOUT
.I lavori devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. In caso contrario, i processi genereranno un'eccezione.
Quando il valore viene lasciato vuoto, il timeout è predefinito a 2880 minuti.
Tutti i AWS Glue lavori esistenti con un valore di timeout superiore a 7 giorni verranno impostati automaticamente su 7 giorni. Ad esempio, se hai specificato un timeout di 20 giorni per un processo batch, questo verrà interrotto il settimo giorno.
Per i lavori di streaming, se hai impostato una finestra di manutenzione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.
-
MaxCapacity
: numero (doppio).Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. Una DPU è una misura relativa della potenza di elaborazione costituita da 4 V di capacità CPUs di elaborazione e 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue
. Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore
Maximum capacity
. Si deve invece specificare unWorker type
e unNumber of workers
.Non impostare
MaxCapacity
se usiWorkerType
eNumberOfWorkers
.Il valore che è possibile allocare per
MaxCapacity
varia a seconda che si esegua un processo shell di Python, un processo ETL di Apache Spark o un processo ETL di streaming di Apache Spark:-
Quando si specifica un processo shell di Python (
JobCommand.Name
="pythonshell"), è possibile allocare 0,0625 o 1 DPU. Il valore di default è 0,0625 DPU. -
Quando specificate un job ETL di Apache Spark (
JobCommand.Name
="glueetl») o un job ETL di streaming Apache Spark (="gluestreaming»), potete allocare da 2 a 100.JobCommand.Name
DPUs L'impostazione predefinita è 10. DPUs Questo tipo di processo non può avere un'allocazione DPU frazionata.
-
-
SecurityConfiguration
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della struttura
SecurityConfiguration
da usare con questo processo. -
Tags
– Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.
Ogni valore è una stringa UTF-8, lunga non più di 256 byte.
I tag da usare con questo processo. Puoi usare i tag per limitare l'accesso al processo. Per ulteriori informazioni sui tag in AWS Glue, consulta AWS Tags AWS Glue in nella guida per sviluppatori.
-
NotificationProperty
: un oggetto NotificationProperty.Specifica le proprietà di configurazione di una notifica di processo.
-
GlueVersion
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Custom string pattern #47.Nei job Spark,
GlueVersion
determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.I processi Ray devono impostare il valore di
GlueVersion
su4.0
o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametroRuntime
del comando del processo.Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.
Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.
-
NumberOfWorkers
: numero (intero).Il numero di worker di un
workerType
specifico allocati quando viene eseguito un processo. -
WorkerType
: stringa UTF-8 (valori validi:Standard=""
|G.1X=""
|G.2X=""
|G.025X=""
|G.4X=""
|G.8X=""
|Z.2X=""
).Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.
-
Per il tipo di
G.1X
worker, ogni worker esegue il mapping a 1 DPU (4 vCPUs, 16 GB di memoria) con disco da 94 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.2X
worker, ogni worker esegue il mapping a 2 DPU (8 vCPUs, 32 GB di memoria) con disco da 138 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi. -
Per il tipo di
G.4X
worker, ogni worker esegue il mapping a 4 DPU (16 vCPUs, 64 GB di memoria) con disco da 256 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma). -
Per il tipo di
G.8X
worker, ogni worker esegue il mapping a 8 DPU (32 vCPUs, 128 GB di memoria) con disco da 512 GB e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i job Spark ETL AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore.G.4X
-
Per il tipo di
G.025X
worker, ogni worker esegue il mapping a 0,25 DPU (2 vCPUs, 4 GB di memoria) con disco da 84 GB e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming AWS Glue versione 3.0 o successiva. -
Per il tipo di
Z.2X
worker, ogni worker esegue il mapping su 2 M-DPU (8vCPUs, 64 GB di memoria) con disco da 128 GB e fornisce fino a 8 Ray worker in base all'autoscaler.
-
-
CodeGenConfigurationNodes
: una matrice della mappa di coppie chiave-valore.Ogni chiave è una stringa UTF-8 corrispondente al Custom string pattern #58.
Ogni valore è un oggetto CodeGenConfigurationNode.
La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.
-
ExecutionClass
: una stringa UTF-8, non superiore a 16 byte di lunghezza (valori validi:FLEX=""
|STANDARD=""
).Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.
La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.
Solo i lavori con AWS Glue versione 3.0 e successive e il tipo di comando
glueetl
potranno essere impostati su.ExecutionClass
FLEX
La classe di esecuzione flessibile è disponibile per i processi Spark. -
SourceControlDetails
: un oggetto SourceControlDetails.I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.
-
MaintenanceWindow
: stringa UTF-8, corrispondente a Custom string pattern #34.Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.
AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle 10:00 GMT, i lavori verranno riavviati tra le 10:00 GMT e le 13:00 GMT.
-
ProfileName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome di un profilo di AWS Glue utilizzo associato al lavoro.
Risposta
-
Name
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome univoco assegnato alla definizione del processo.
Errori
InvalidInputException
IdempotentParameterMismatchException
AlreadyExistsException
InternalServiceException
OperationTimeoutException
ResourceNumberLimitExceededException
ConcurrentModificationException
UpdateJob azione (Python: update_job)
Aggiorna la definizione di un processo esistente. La precedente definizione di processo viene completamente sovrascritta da questa informazione.
Richiesta
-
JobName
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della definizione del processo da aggiornare.
-
JobUpdate
: obbligatorio: un oggetto JobUpdate.Specifica i valori con cui aggiornare la definizione del processo. La configurazione non specificata viene rimossa o ripristinata ai valori predefiniti.
-
ProfileName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome di un profilo di AWS Glue utilizzo associato al lavoro.
Risposta
-
JobName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Restituisce il nome della definizione aggiornata del processo.
Errori
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
ConcurrentModificationException
GetJob azione (Python: get_job)
Recupera la definizione di un processo esistente.
Richiesta
-
JobName
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della definizione del processo da recuperare.
Risposta
-
Job
: un oggetto Processo.La definizione del processo richiesta.
Errori
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
GetJobs azione (Python: get_jobs)
Recupera tutte le attuali definizioni del processo.
Richiesta
-
NextToken
: stringa UTF-8.Un token di continuazione, se si tratta di una chiamata di continuazione.
-
MaxResults
: numero (intero), non inferiore a 1 o superiore a 1000.La dimensione massima della risposta.
Risposta
-
Jobs
: una matrice di oggetti Processo.Un elenco di definizioni del processo.
-
NextToken
: stringa UTF-8.Un token di continuazione, se non sono ancora state restituite tutte le definizioni del processo.
Errori
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
DeleteJob azione (Python: delete_job)
Elimina una specifica definizione del processo. Se la definizione del processo non viene trovata, non viene generata alcuna eccezione.
Richiesta
-
JobName
: obbligatorio: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Nome della definizione del processo da eliminare.
Risposta
-
JobName
: stringa UTF-8, non inferiore a 1 o superiore a 255 byte di lunghezza, corrispondente a Single-line string pattern.Il nome della definizione del processo eliminata.
Errori
InvalidInputException
InternalServiceException
OperationTimeoutException
ListJobs azione (Python: list_jobs)
Recupera i nomi di tutte le risorse lavorative in questo AWS account o le risorse con il tag specificato. Questa operazione consente di vedere quali risorse sono disponibili nel proprio account e i relativi nomi.
L'operazione accetta il campo facoltativo Tags
che si può utilizzare come filtro per la risposta in modo che le risorse con tag possano essere recuperate come gruppo. Se si sceglie di utilizzare il filtro dei tag, potranno essere recuperate solo le risorse con tag.
Richiesta
-
NextToken
: stringa UTF-8.Token di continuazione, se si tratta di una richiesta di continuazione.
-
MaxResults
: numero (intero), non inferiore a 1 o superiore a 1000.La dimensione massima di un elenco da restituire.
-
Tags
– Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.Ogni chiave è una stringa UTF-8, non inferiore a 1 o superiore a 128 byte di lunghezza.
Ogni valore è una stringa UTF-8, lunga non più di 256 byte.
Specifica che vengono restituite solo le risorse con tag.
Risposta
-
JobNames
: una matrice di stringhe UTF-8.I nomi di tutti i processi nell'account oppure i processi con i tag specificati.
-
NextToken
: stringa UTF-8.Token di continuazione, se l'elenco restituito non contiene l'ultimo parametro disponibile.
Errori
InvalidInputException
EntityNotFoundException
InternalServiceException
OperationTimeoutException
BatchGetJobs azione (Python: batch_get_jobs)
Restituisce un elenco di metadati di risorse per un determinato elenco di nomi di processi. Dopo aver chiamato l'operazione ListJobs
, puoi chiamare questa operazione per accedere ai dati a cui sono state concesse le autorizzazioni. Questa operazione supporta tutte le autorizzazioni IAM, tra cui le condizioni di autorizzazione che utilizzano i tag.
Richiesta
-
JobNames
. Obbligatorio: matrice di stringhe UTF-8.L'elenco dei nomi di processo, che potrebbero essere i nomi restituiti dall'operazione
ListJobs
.
Risposta
-
Jobs
: una matrice di oggetti Processo.Un elenco di definizioni del processo.
-
JobsNotFound
: una matrice di stringhe UTF-8.Un elenco di nomi di processi non trovati.
Errori
InternalServiceException
OperationTimeoutException
InvalidInputException