Processi - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Processi

I lavori API descrivono i tipi di dati e sono API correlati alla creazione, all'aggiornamento, all'eliminazione o alla visualizzazione dei lavori in. AWS Glue

Tipi di dati

Struttura del processo

Specifica una definizione del processo.

Campi
  • Name— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome assegnato alla definizione del processo.

  • JobMode— UTF -8 stringhe (valori validi: SCRIPT="" | VISUAL="" |NOTEBOOK="").

    Una modalità che descrive come è stato creato un lavoro. I valori validi sono:

    • SCRIPT- Il lavoro è stato creato utilizzando l'editor di script AWS Glue Studio.

    • VISUAL- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio.

    • NOTEBOOK- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.

    Quando il JobMode campo è mancante o nullo, SCRIPT viene assegnato come valore predefinito.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Descrizione del processo.

  • LogUri— UTF -8 stringhe.

    Questo campo è riservato per uso futuro.

  • Role— UTF -8 corde.

    Il nome o Amazon Resource Name (ARN) del IAM ruolo associato a questo lavoro.

  • CreatedOn: timestamp.

    La data e l'ora in cui è stata creata la specifica della definizione del processo.

  • LastModifiedOn: timestamp.

    L'ultimo point-in-time in cui è stata modificata la definizione del processo.

  • ExecutionProperty: un oggetto ExecutionProperty.

    ExecutionProperty che specifica il numero massimo di esecuzioni simultanee consentite per il processo.

  • Command: un oggetto JobCommand.

    Il JobCommand che esegue questo lavoro.

  • DefaultArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.

    Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del lavoro, nonché gli argomenti utilizzati dal proprio script di esecuzione AWS Glue del lavoro.

    Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.

    Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.

  • NonOverridableArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.

  • Connections: un oggetto ConnectionsList.

    Le connessioni utilizzate per questo processo.

  • MaxRetries: numero (intero).

    Il numero massimo di volte in cui riprovare questo processo dopo un JobRun errore.

  • AllocatedCapacity: numero (intero).

    in quanto obsoleto. Usare invece MaxCapacity.

    Il numero di unità di elaborazione AWS Glue dati (DPUs) assegnate alle esecuzioni di questo processo. È possibile allocarne almeno 2DPUs; l'impostazione predefinita è 10. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

  • Timeout: numero (intero), almeno 1.

    Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. L'impostazione predefinita è 2.880 minuti (48 ore) per i processi in batch.

    I lavori di streaming devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. Se il valore viene lasciato vuoto, il processo verrà riavviato dopo 7 giorni, a seconda che non sia stata impostata una finestra di manutenzione. Se si dispone di una finestra di manutenzione di configurazione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.

  • MaxCapacity: numero (doppio).

    Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore Maximum capacity. Si deve invece specificare un Worker type e un Number of workers.

    Non impostare MaxCapacity se usi WorkerType e NumberOfWorkers.

    Il valore per cui è possibile allocare MaxCapacity dipende dal fatto che stiate eseguendo un job di shell Python, un job Apache Spark o un job di streaming Apache ETL Spark: ETL

    • Quando si specifica un job della shell Python (JobCommand.Name="pythonshell»), è possibile allocare 0,0625 o 1. DPU L'DPUimpostazione predefinita è 0,0625.

    • Quando specificate un job Apache Spark (JobCommand.Name="glueetl») o un ETL job di streaming Apache Spark (JobCommand.Name="gluestreaming»), potete allocare da ETL 2 a 100. DPUs L'impostazione predefinita è 10. DPUs Questo tipo di lavoro non può avere un'DPUallocazione frazionaria.

  • WorkerType— UTF -8 stringhe (valori validi: Standard="" | | G.1X="" | G.2X="" | G.025X="" | G.4X="" G.8X="" |Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.

    • Per il tipo di G.1X worker, ogni worker esegue il mapping su 1 DPU (vCPUs4,16 GB di memoria) con disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.2X worker, ogni worker esegue il mapping su 2 DPU (vCPUs8.32 GB di memoria) con disco da 128 GB (circa 77 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.4X worker, ogni worker esegue il mapping su 4 DPU (16vCPUs, 64 GB di memoria) con disco da 256 GB (circa 235 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i ETL lavori Spark AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma).

    • Per il tipo di G.8X worker, ogni worker esegue il mapping a 8 DPU (vCPUs32.128 GB di memoria) con disco da 512 GB (circa 487 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i ETL job Spark AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore. G.4X

    • Per il tipo di G.025X worker, ogni worker esegue il mapping su 0,25 DPU (vCPUs2,4 GB di memoria) con un disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming della AWS Glue versione 3.0.

    • Per il tipo di Z.2X worker, ogni worker esegue il mapping su 2 M- DPU (vCPUs8.64 GB di memoria) con disco da 128 GB (circa 120 GB gratuiti) e fornisce fino a 8 Ray worker in base all'autoscaler.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguito un processo.

  • SecurityConfiguration— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondenti a. Single-line string pattern

    Nome della struttura SecurityConfiguration da usare con questo processo.

  • NotificationProperty: un oggetto NotificationProperty.

    Specifica le proprietà di configurazione di una notifica di processo.

  • Running: booleano.

    Questo campo è riservato per uso futuro.

  • GlueVersion— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Custom string pattern #20

    Nei job Spark, GlueVersion determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.

    I processi Ray devono impostare il valore di GlueVersion su 4.0 o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametro Runtime del comando del processo.

    Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.

    Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.

  • CodeGenConfigurationNodes: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #42

    Ogni valore è un oggetto CodeGenConfigurationNode.

    La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.

  • ExecutionClass— UTF -8 stringhe, di lunghezza non superiore a 16 byte (valori validi: FLEX="" |STANDARD="").

    Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.

    La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.

    Solo i lavori con AWS Glue versione 3.0 e successive e il tipo di comando glueetl potranno essere impostati suExecutionClass. FLEX La classe di esecuzione flessibile è disponibile per i processi Spark.

  • SourceControlDetails: un oggetto SourceControlDetails.

    I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.

  • MaintenanceWindow— UTF -8 stringhe, corrispondenti aCustom string pattern #30.

    Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.

    AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle GMT 10:00, i lavori verranno riavviati tra le 10:00 e le 13:00. GMT GMT

  • ProfileName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome di un profilo di AWS Glue utilizzo associato al job.

ExecutionProperty struttura

Una proprietà di esecuzione di un processo.

Campi
  • MaxConcurrentRuns: numero (intero).

    Il numero massimo di esecuzioni simultanee consentite per il processo. Il valore di default è 1. Viene restituito un errore al raggiungimento della soglia. Il valore massimo che è possibile specificare è controllato da un limite di servizio.

NotificationProperty struttura

Specifica le proprietà di configurazione di una notifica.

Campi
  • NotifyDelayAfter: numero (intero), almeno 1.

    Dopo l'inizio dell'esecuzione di un processo, la quantità di minuti da attendere prima di inviare una notifica di ritardo dell'esecuzione di un processo.

JobCommand struttura

Specifica il codice eseguito quando viene eseguito un processo.

Campi
  • Name— UTF -8 corde.

    Il nome del comando del processo. Per un ETL job in Apache Spark, questo deve essere. glueetl Per un processo shell Python, deve essere pythonshell. Per un ETL lavoro di streaming con Apache Spark, questo deve essere. gluestreaming Per un processo Ray, questo deve essere glueray.

  • ScriptLocation— UTF -8 stringhe, lunghe non più di 400000 byte.

    Specifica il percorso di Amazon Simple Storage Service (Amazon S3) per uno script che esegue un processo.

  • PythonVersion— UTF -8 stringhe, corrispondenti a. Custom string pattern #21

    La versione Python utilizzata per eseguire un processo shell Python. I valori consentiti sono 2 o 3.

  • Runtime— UTF -8 stringa, lunga non più di 64 byte, corrispondente a. Custom string pattern #29

    Nei processi Ray, Runtime viene utilizzato per specificare le versioni di Ray, Python e librerie aggiuntive disponibili nell'ambiente. Questo campo non viene utilizzato in altri tipi di processo. Per i valori dell'ambiente di runtime supportati, consulta la sezione Ambienti di runtime Ray supportati nella Guida per gli AWS Glue sviluppatori.

ConnectionsList struttura

Specifica le connessioni utilizzate da un processo.

Campi
  • Connections— Un array di UTF -8 stringhe.

    Un elenco di connessioni utilizzate dal processo.

JobUpdate struttura

Specifica le informazioni utilizzate per aggiornare una definizione del processo esistente. La precedente definizione di processo viene completamente sovrascritta da questa informazione.

Campi
  • JobMode— UTF -8 stringhe (valori validi: SCRIPT="" | VISUAL="" |NOTEBOOK="").

    Una modalità che descrive come è stato creato un lavoro. I valori validi sono:

    • SCRIPT- Il lavoro è stato creato utilizzando l'editor di script AWS Glue Studio.

    • VISUAL- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio.

    • NOTEBOOK- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.

    Quando il JobMode campo è mancante o nullo, SCRIPT viene assegnato come valore predefinito.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Descrizione del processo da definire.

  • LogUri— UTF -8 stringhe.

    Questo campo è riservato per uso futuro.

  • Role— UTF -8 corde.

    Il nome o Amazon Resource Name (ARN) del IAM ruolo associato a questo lavoro (obbligatorio).

  • ExecutionProperty: un oggetto ExecutionProperty.

    ExecutionProperty che specifica il numero massimo di esecuzioni simultanee consentite per il processo.

  • Command: un oggetto JobCommand.

    JobCommand che esegue il processo (richiesto).

  • DefaultArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.

    Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del lavoro, nonché gli argomenti utilizzati dal proprio script di esecuzione AWS Glue del lavoro.

    Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.

    Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.

  • NonOverridableArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.

  • Connections: un oggetto ConnectionsList.

    Le connessioni utilizzate per questo processo.

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi per riprovare il processo se ha esito negativo.

  • AllocatedCapacity: numero (intero).

    in quanto obsoleto. Usare invece MaxCapacity.

    Il numero di unità di elaborazione AWS Glue dati (DPUs) da allocare a questo lavoro. È possibile allocarne almeno 2DPUs; l'impostazione predefinita è 10. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

  • Timeout: numero (intero), almeno 1.

    Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. L'impostazione predefinita è 2.880 minuti (48 ore) per i processi in batch.

    I lavori di streaming devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. Se il valore viene lasciato vuoto, il processo verrà riavviato dopo 7 giorni, a seconda che non sia stata impostata una finestra di manutenzione. Se si dispone di una finestra di manutenzione di configurazione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.

  • MaxCapacity: numero (doppio).

    Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore Maximum capacity. Si deve invece specificare un Worker type e un Number of workers.

    Non impostare MaxCapacity se usi WorkerType e NumberOfWorkers.

    Il valore per cui è possibile allocare MaxCapacity dipende dal fatto che stiate eseguendo un job di shell Python, un job Apache Spark o un job di streaming Apache ETL Spark: ETL

    • Quando si specifica un job della shell Python (JobCommand.Name="pythonshell»), è possibile allocare 0,0625 o 1. DPU L'DPUimpostazione predefinita è 0,0625.

    • Quando specificate un job Apache Spark (JobCommand.Name="glueetl») o un ETL job di streaming Apache Spark (JobCommand.Name="gluestreaming»), potete allocare da ETL 2 a 100. DPUs L'impostazione predefinita è 10. DPUs Questo tipo di lavoro non può avere un'DPUallocazione frazionaria.

  • WorkerType— UTF -8 stringhe (valori validi: Standard="" | | G.1X="" | G.2X="" | G.025X="" | G.4X="" G.8X="" |Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.

    • Per il tipo di G.1X worker, ogni worker esegue il mapping su 1 DPU (vCPUs4,16 GB di memoria) con disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.2X worker, ogni worker esegue il mapping su 2 DPU (vCPUs8.32 GB di memoria) con disco da 128 GB (circa 77 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.4X worker, ogni worker esegue il mapping su 4 DPU (16vCPUs, 64 GB di memoria) con disco da 256 GB (circa 235 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i ETL lavori Spark AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma).

    • Per il tipo di G.8X worker, ogni worker esegue il mapping a 8 DPU (vCPUs32.128 GB di memoria) con disco da 512 GB (circa 487 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i ETL job Spark AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore. G.4X

    • Per il tipo di G.025X worker, ogni worker esegue il mapping su 0,25 DPU (vCPUs2,4 GB di memoria) con un disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming della AWS Glue versione 3.0.

    • Per il tipo di Z.2X worker, ogni worker esegue il mapping su 2 M- DPU (vCPUs8.64 GB di memoria) con disco da 128 GB (circa 120 GB gratuiti) e fornisce fino a 8 Ray worker in base all'autoscaler.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguito un processo.

  • SecurityConfiguration— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondenti a. Single-line string pattern

    Nome della struttura SecurityConfiguration da usare con questo processo.

  • NotificationProperty: un oggetto NotificationProperty.

    Specifica le proprietà di configurazione di una notifica di un processo.

  • GlueVersion— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Custom string pattern #20

    Nei job Spark, GlueVersion determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.

    I processi Ray devono impostare il valore di GlueVersion su 4.0 o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametro Runtime del comando del processo.

    Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.

    Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.

  • CodeGenConfigurationNodes: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #42

    Ogni valore è un oggetto CodeGenConfigurationNode.

    La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.

  • ExecutionClass— UTF -8 stringhe, di lunghezza non superiore a 16 byte (valori validi: FLEX="" |STANDARD="").

    Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.

    La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.

    Solo i lavori con AWS Glue versione 3.0 e successive e il tipo di comando glueetl potranno essere impostati suExecutionClass. FLEX La classe di esecuzione flessibile è disponibile per i processi Spark.

  • SourceControlDetails: un oggetto SourceControlDetails.

    I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.

  • MaintenanceWindow— UTF -8 stringhe, corrispondenti aCustom string pattern #30.

    Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.

    AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle GMT 10:00, i lavori verranno riavviati tra le 10:00 e le 13:00. GMT GMT

  • ProfileName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome di un profilo di AWS Glue utilizzo associato al job.

SourceControlDetails struttura

I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.

Campi
  • Provider— UTF -8 corde.

    Il provider per il repository remoto.

  • Repository— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    Il nome del repository remoto che contiene gli artefatti del processo.

  • Owner— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    Il proprietario del repository remoto che contiene gli artefatti del processo.

  • Branch— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    Un ramo opzionale nel repository remoto.

  • Folder— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    Una cartella opzionale nel repository remoto.

  • LastCommitId— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    L'ultimo ID di commit per un commit nel repository remoto.

  • LastSyncTimestamp— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    La data e l'ora in cui è stata eseguita l'ultima sincronizzazione di processo.

  • AuthStrategy— UTF -8 stringhe.

    Il tipo di autenticazione, che può essere un token di autenticazione memorizzato in AWS Secrets Manager o un token di accesso personale.

  • AuthToken— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 512 byte.

    Il valore di un token di autorizzazione.

Operazioni

CreateJob azione (Python: create_job)

Crea una nuova definizione del processo.

Richiesta
  • NameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome assegnato alla definizione del processo. Deve essere univoco all'interno dell'account .

  • JobMode— UTF -8 stringa (valori validi: SCRIPT="" | VISUAL="" |NOTEBOOK="").

    Una modalità che descrive come è stato creato un lavoro. I valori validi sono:

    • SCRIPT- Il lavoro è stato creato utilizzando l'editor di script AWS Glue Studio.

    • VISUAL- Il lavoro è stato creato utilizzando l'editor visivo di AWS Glue Studio.

    • NOTEBOOK- Il lavoro è stato creato utilizzando un taccuino con sessioni interattive.

    Quando il JobMode campo è mancante o nullo, SCRIPT viene assegnato come valore predefinito.

  • Description: stringa di descrizione, non superiore a 2048 byte di lunghezza, corrispondente a URI address multi-line string pattern.

    Descrizione del processo da definire.

  • LogUri— UTF -8 stringhe.

    Questo campo è riservato per uso futuro.

  • RoleRichiesto: UTF -8 stringhe.

    Il nome o Amazon Resource Name (ARN) del IAM ruolo associato a questo lavoro.

  • ExecutionProperty: un oggetto ExecutionProperty.

    ExecutionProperty che specifica il numero massimo di esecuzioni simultanee consentite per il processo.

  • Command: obbligatorio: un oggetto JobCommand.

    Il JobCommand che esegue questo lavoro.

  • DefaultArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti predefiniti per ciascuna esecuzione del processo, specificati come coppie nome-valore.

    Qui è possibile specificare gli argomenti utilizzati dal proprio script di esecuzione del lavoro, nonché gli argomenti utilizzati dal proprio script di esecuzione AWS Glue del lavoro.

    Gli argomenti del processo potrebbero essere registrati. Non passare segreti in testo chiaro come argomenti. Recupera i segreti da una AWS Glue connessione AWS Secrets Manager o da un altro meccanismo di gestione dei segreti se intendi mantenerli all'interno del Job.

    Per informazioni su come specificare e utilizzare i propri argomenti Job, consultate l'argomento Calling AWS Glue APIs in Python nella guida per sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Spark, consulta la pagina Special Parameters Used by AWS Glue nella Guida per gli sviluppatori.

    Per informazioni sugli argomenti che puoi fornire a questo campo durante la configurazione dei processi Ray, consulta la pagina Using job parameters in Ray jobs nella Guida per gli sviluppatori.

  • NonOverridableArguments: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8.

    Ogni valore è una stringa di UTF -8.

    Gli argomenti per questo processo che non vengono sovrascritti quando si forniscono argomenti di processo in un'esecuzione di processo, specificati come coppie nome-valore.

  • Connections: un oggetto ConnectionsList.

    Le connessioni utilizzate per questo processo.

  • MaxRetries: numero (intero).

    Il numero massimo di tentativi per riprovare il processo se ha esito negativo.

  • AllocatedCapacity: numero (intero).

    Questo parametro è obsoleto. Usare invece MaxCapacity.

    Il numero di unità di elaborazione AWS Glue dati (DPUs) da allocare a questo Job. È possibile allocarne almeno 2DPUs; l'impostazione predefinita è 10. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

  • Timeout: numero (intero), almeno 1.

    Timeout del processo in minuti. Indica il tempo massimo durante cui l'esecuzione di un processo può utilizzare le risorse prima di essere terminata e passare allo stato TIMEOUT. L'impostazione predefinita è 2.880 minuti (48 ore) per i processi in batch.

    I lavori di streaming devono avere valori di timeout inferiori a 7 giorni o 10080 minuti. Se il valore viene lasciato vuoto, il processo verrà riavviato dopo 7 giorni, a seconda che non sia stata impostata una finestra di manutenzione. Se si dispone di una finestra di manutenzione di configurazione, questa verrà riavviata durante la finestra di manutenzione dopo 7 giorni.

  • MaxCapacity: numero (doppio).

    Per i job Glue versione 1.0 o precedente, utilizzando il tipo di worker standard, il numero di unità di elaborazione AWS Glue dati (DPUs) che possono essere allocate durante l'esecuzione di questo processo. A DPU è una misura relativa della potenza di elaborazione costituita dal 4% della capacità vCPUs di elaborazione e da 16 GB di memoria. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Glue.

    Per i processi Glue versione 2.0 e successive, non è possibile specificare il valore Maximum capacity. Si deve invece specificare un Worker type e un Number of workers.

    Non impostare MaxCapacity se usi WorkerType e NumberOfWorkers.

    Il valore per cui è possibile allocare MaxCapacity dipende dal fatto che stiate eseguendo un job di shell Python, un job Apache Spark o un job di streaming Apache ETL Spark: ETL

    • Quando si specifica un job della shell Python (JobCommand.Name="pythonshell»), è possibile allocare 0,0625 o 1. DPU L'DPUimpostazione predefinita è 0,0625.

    • Quando specificate un job Apache Spark (JobCommand.Name="glueetl») o un ETL job di streaming Apache Spark (JobCommand.Name="gluestreaming»), potete allocare da ETL 2 a 100. DPUs L'impostazione predefinita è 10. DPUs Questo tipo di lavoro non può avere un'DPUallocazione frazionaria.

  • SecurityConfiguration— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome della struttura SecurityConfiguration da usare con questo processo.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa di UTF -8, lunga non meno di 1 o più di 128 byte.

    Ogni valore è una stringa di UTF -8, lunga non più di 256 byte.

    I tag da usare con questo processo. Puoi usare i tag per limitare l'accesso al processo. Per ulteriori informazioni sui tag in AWS Glue, consulta AWS Tags in AWS Glue nella guida per sviluppatori.

  • NotificationProperty: un oggetto NotificationProperty.

    Specifica le proprietà di configurazione di una notifica di processo.

  • GlueVersion— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Custom string pattern #20

    Nei job Spark, GlueVersion determina le versioni di Apache Spark e Python disponibili in un job. AWS Glue La versione Python indica la versione supportata per i processi di tipo Spark.

    I processi Ray devono impostare il valore di GlueVersion su 4.0 o superiore. Tuttavia, le versioni di Ray, Python e le librerie aggiuntive disponibili nel processo Ray sono determinate dal parametro Runtime del comando del processo.

    Per ulteriori informazioni sulle AWS Glue versioni disponibili e sulle versioni corrispondenti di Spark e Python, consulta la versione Glue nella guida per sviluppatori.

    Processi creati senza specificare una versione Glue utilizzano Glue 0.9 per impostazione predefinita.

  • NumberOfWorkers: numero (intero).

    Il numero di worker di un workerType specifico allocati quando viene eseguito un processo.

  • WorkerType— UTF -8 stringhe (valori validi: Standard="" | | G.1X="" | | G.2X="" | G.025X="" | G.4X="" G.8X="" |Z.2X="").

    Il tipo di worker predefinito allocato quando viene eseguito un processo. Accetta un valore di G.1X, G.2X, G.4X, G.8X o G.025X per i processi Spark. Accetta il valore Z.2X per i processi Ray.

    • Per il tipo di G.1X worker, ogni worker esegue il mapping su 1 DPU (vCPUs4,16 GB di memoria) con disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.2X worker, ogni worker esegue il mapping su 2 DPU (vCPUs8.32 GB di memoria) con disco da 128 GB (circa 77 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per carichi di lavoro come trasformazioni di dati, join e query, in quanto offrono un modo scalabile ed economico per eseguire la maggior parte dei processi.

    • Per il tipo di G.4X worker, ogni worker esegue il mapping su 4 DPU (16vCPUs, 64 GB di memoria) con disco da 256 GB (circa 235 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di lavoratore è disponibile solo per i ETL lavori Spark AWS Glue versione 3.0 o successiva AWS nelle seguenti regioni: Stati Uniti orientali (Ohio), Stati Uniti orientali (Virginia settentrionale), Stati Uniti occidentali (Oregon), Asia Pacifico (Singapore), Asia Pacifico (Sydney), Asia Pacifico (Tokyo), Canada (Centrale), Europa (Francoforte), Europa (Irlanda) ed Europa (Stoccolma).

    • Per il tipo di G.8X worker, ogni worker esegue il mapping a 8 DPU (vCPUs32.128 GB di memoria) con disco da 512 GB (circa 487 GB gratuiti) e fornisce 1 esecutore per lavoratore. Questi tipi di worker sono raccomandati per i processi i cui carichi di lavoro contengono trasformazioni, aggregazioni, join e query con i requisiti più elevati. Questo tipo di worker è disponibile solo per i ETL job Spark AWS Glue versione 3.0 o successiva, nelle stesse AWS regioni supportate per il tipo di lavoratore. G.4X

    • Per il tipo di G.025X worker, ogni worker esegue il mapping su 0,25 DPU (vCPUs2,4 GB di memoria) con un disco da 84 GB (circa 34 GB gratuiti) e fornisce 1 esecutore per lavoratore. Consigliamo questo tipo di worker per i processi di streaming a basso volume. Questo tipo di worker è disponibile solo per i lavori di streaming della AWS Glue versione 3.0.

    • Per il tipo di Z.2X worker, ogni worker esegue il mapping su 2 M- DPU (vCPUs8.64 GB di memoria) con disco da 128 GB (circa 120 GB gratuiti) e fornisce fino a 8 Ray worker in base all'autoscaler.

  • CodeGenConfigurationNodes: una matrice della mappa di coppie chiave-valore.

    Ogni chiave è una stringa di UTF -8, corrispondente a. Custom string pattern #42

    Ogni valore è un oggetto CodeGenConfigurationNode.

    La rappresentazione di un grafico aciclico diretto su cui si basano sia il componente visivo che la generazione di codice di Glue Studio.

  • ExecutionClass— UTF -8 stringhe, di lunghezza non superiore a 16 byte (valori validi: FLEX="" |STANDARD="").

    Indica se il processo viene eseguito con una classe di esecuzione standard o flessibile. La classe di esecuzione standard è ideale per carichi di lavoro sensibili al tempo che richiedono un avvio rapido dei processi e risorse dedicate.

    La classe di esecuzione flessibile è appropriata per i processi non sensibili al tempo i cui tempi di inizio e completamento possono variare.

    Solo i lavori con AWS Glue versione 3.0 e successive e il tipo di comando glueetl potranno essere impostati suExecutionClass. FLEX La classe di esecuzione flessibile è disponibile per i processi Spark.

  • SourceControlDetails: un oggetto SourceControlDetails.

    I dettagli per una configurazione di controllo di origine per un processo, che consente la sincronizzazione degli artefatti del processo da o verso un repository remoto.

  • MaintenanceWindow— UTF -8 stringhe, corrispondenti aCustom string pattern #30.

    Questo campo specifica un giorno della settimana e un'ora per una finestra di manutenzione per i lavori di streaming. AWS Glue esegue periodicamente attività di manutenzione. Durante queste finestre di manutenzione, AWS Glue sarà necessario riavviare i processi di streaming.

    AWS Glue riavvierà il lavoro entro 3 ore dalla finestra di manutenzione specificata. Ad esempio, se imposti la finestra di manutenzione per lunedì alle GMT 10:00, i lavori verranno riavviati tra le 10:00 e le 13:00. GMT GMT

  • ProfileName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome di un profilo di AWS Glue utilizzo associato al job.

Risposta
  • Name— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Il nome univoco assegnato alla definizione del processo.

Errori
  • InvalidInputException

  • IdempotentParameterMismatchException

  • AlreadyExistsException

  • InternalServiceException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

  • ConcurrentModificationException

UpdateJob azione (Python: update_job)

Aggiorna la definizione di un processo esistente. La precedente definizione di processo viene completamente sovrascritta da questa informazione.

Richiesta
  • JobNameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome della definizione del processo da aggiornare.

  • JobUpdate: obbligatorio: un oggetto JobUpdate.

    Specifica i valori con cui aggiornare la definizione del processo. La configurazione non specificata viene rimossa o ripristinata ai valori predefiniti.

  • ProfileName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome di un profilo di AWS Glue utilizzo associato al job.

Risposta
  • JobName— UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Restituisce il nome della definizione aggiornata del processo.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

  • ConcurrentModificationException

GetJob azione (Python: get_job)

Recupera la definizione di un processo esistente.

Richiesta
  • JobNameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome della definizione del processo da recuperare.

Risposta
  • Job: un oggetto Processo.

    La definizione del processo richiesta.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

GetJobs azione (Python: get_jobs)

Recupera tutte le attuali definizioni del processo.

Richiesta
  • NextToken— UTF -8 corde.

    Un token di continuazione, se si tratta di una chiamata di continuazione.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    La dimensione massima della risposta.

Risposta
  • Jobs: una matrice di oggetti Processo.

    Un elenco di definizioni del processo.

  • NextToken— UTF -8 corde.

    Un token di continuazione, se non sono ancora state restituite tutte le definizioni del processo.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

DeleteJob azione (Python: delete_job)

Elimina una specifica definizione del processo. Se la definizione del processo non viene trovata, non viene generata alcuna eccezione.

Richiesta
  • JobNameObbligatorio: UTF -8 stringhe, di lunghezza non inferiore a 1 o superiore a 255 byte, corrispondente a. Single-line string pattern

    Nome della definizione del processo da eliminare.

Risposta
  • JobName— UTF -8 stringhe, di lunghezza non inferiore a 1 o più di 255 byte, corrispondente a. Single-line string pattern

    Il nome della definizione del processo eliminata.

Errori
  • InvalidInputException

  • InternalServiceException

  • OperationTimeoutException

ListJobs azione (Python: list_jobs)

Recupera i nomi di tutte le risorse lavorative in questo AWS account o le risorse con il tag specificato. Questa operazione consente di vedere quali risorse sono disponibili nel proprio account e i relativi nomi.

L'operazione accetta il campo facoltativo Tags che si può utilizzare come filtro per la risposta in modo che le risorse con tag possano essere recuperate come gruppo. Se si sceglie di utilizzare il filtro dei tag, potranno essere recuperate solo le risorse con tag.

Richiesta
  • NextToken— UTF -8 stringhe.

    Token di continuazione, se si tratta di una richiesta di continuazione.

  • MaxResults: numero (intero), non inferiore a 1 o superiore a 1000.

    La dimensione massima di un elenco da restituire.

  • Tags – Una matrice di mappe con coppie chiave-valore, non superiore alle 50 coppie.

    Ogni chiave è una stringa di UTF -8, lunga non meno di 1 o più di 128 byte.

    Ogni valore è una stringa di UTF -8, lunga non più di 256 byte.

    Specifica che vengono restituite solo le risorse con tag.

Risposta
  • JobNames— Un array di UTF -8 stringhe.

    I nomi di tutti i processi nell'account oppure i processi con i tag specificati.

  • NextToken— UTF -8 corde.

    Token di continuazione, se l'elenco restituito non contiene l'ultimo parametro disponibile.

Errori
  • InvalidInputException

  • EntityNotFoundException

  • InternalServiceException

  • OperationTimeoutException

BatchGetJobs azione (Python: batch_get_jobs)

Restituisce un elenco di metadati di risorse per un determinato elenco di nomi di processi. Dopo aver chiamato l'operazione ListJobs, puoi chiamare questa operazione per accedere ai dati a cui sono state concesse le autorizzazioni. Questa operazione supporta tutte le IAM autorizzazioni, incluse le condizioni di autorizzazione che utilizzano tag.

Richiesta
  • JobNamesObbligatorio: un array di UTF -8 stringhe.

    L'elenco dei nomi di processo, che potrebbero essere i nomi restituiti dall'operazione ListJobs.

Risposta
  • Jobs: una matrice di oggetti Processo.

    Un elenco di definizioni del processo.

  • JobsNotFound— Un array di UTF -8 stringhe.

    Un elenco di nomi di processi non trovati.

Errori
  • InternalServiceException

  • OperationTimeoutException

  • InvalidInputException