Modifica o caricamento di uno script del processo - AWS Aderenza

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modifica o caricamento di uno script del processo

Utilizzo dell'editor visivo AWS Glue Studio per modificare lo script del processo o caricare il proprio script.

È possibile utilizzare l'editor visivo per modificare i nodi di processo solo se i processi sono stati creati con AWS Glue Studio. Se il processo è stato creato utilizzando la console AWS Glue, tramite i comandi API o con l'interfaccia a riga di comando (CLI), puoi utilizzare l'editor di script in AWS Glue Studio per modificare lo script del processo, i parametri e la pianificazione. Puoi anche modificare lo script per un processo creato in AWS Glue Studio convertendo il processo in modalità solo script.

Per modificare lo script del processo o caricare il proprio script
  1. Se crei un nuovo processo, nella pagina Jobs (Processi), seleziona l'opzione Spark script editor (Editor di script Spark) per creare un processo Spark o scegli l'opzione Python Shell script editor (Editor di script shell Python) per creare un processo shell Python. Puoi scrivere un nuovo script o caricare uno script esistente. Se scegli Spark script editor (Editor di script Spark), puoi scrivere o caricare uno script Scala o Python. Se scegli Python Shell script editor (Editor di script shell Python), puoi scrivere o caricare solo uno script Python.

    Dopo aver selezionato l'opzione per creare un nuovo processo, nella sezione Options (Opzioni) che appare, puoi scegliere di iniziare con uno script di inizio (Create a new script with boilerplate code [Crea un nuovo script con codice boilerplate]), oppure puoi caricare un file locale da utilizzare come script del processo.

    Se hai scelto Spark script editor (Editor di script Spark), puoi caricare un file script Python o Scala. Gli script Scala devono avere l'estensione di file .scala. Gli script Python devono essere riconosciuti come file di tipo Python. Se hai scelto Python Shell script editor (Editor di script shell Python), puoi caricare solo file di script Python.

    Una volta completate le scelte, seleziona Create (Crea) per creare il processo e aprire l'editor visivo.

  2. Vai all'editor di processo visivo per il processo nuovo o salvato, quindi seleziona la scheda Script.

  3. Se non hai creato un nuovo processo utilizzando una delle opzioni dell'editor di script e non hai mai modificato lo script per un processo esistente, la scheda Script mostra l'intestazione Script (Locked) (Script [bloccato]). Ciò significa che l'editor di script è in modalità di sola lettura. Scegli Edit script (Modifica script) per sbloccare lo script per la modifica.

    Per rendere lo script modificabile, AWS Glue Studio converte il processo da processo visivo a processo solo script. Sbloccando lo script per la modifica, non puoi più utilizzare l'editor visivo per questo processo dopo averlo salvato.

    Nella finestra di conferma, scegli Confirm (Conferma) per continuare o Cancel (Annulla) per mantenere il processo disponibile per la modifica visiva.

    Scegliendo Confirm (Conferma), la scheda Visual (Visivo) non viene più mostrata nell'editor. Puoi utilizzare AWS Glue Studio per modificare lo script utilizzando l'editor di script, modificare i dettagli o la pianificazione del processo o visualizzarne le esecuzioni.

    Nota

    Fino a quando non salvi il processo, la conversione in un processo solo script non è permanente. Se aggiorni la pagina Web della console o chiudi il processo prima di salvarlo e lo riapri nell'editor visivo, potrai ancora modificare i singoli nodi nell'editor visivo.

  4. Modifica lo script in base alle esigenze.

    Dopo aver modificato lo script, seleziona Save (Salva) per salvare il processo e convertirlo in modo permanente da visivo a solo script.

  5. (Facoltativo) Puoi scaricare lo script dalla console AWS Glue Studio selezionando il pulsante Download (Scarica) nella scheda Script. Selezionando questo pulsante, si apre una nuova finestra del browser che mostra lo script dalla sua posizione in Amazon S3. I parametri Script filename (Nome del file di script) e Script path (Percorso dello script) nella scheda del processo Job details (Dettagli del processo) determinano il nome e la posizione del file di script in Amazon S3.

    Lo screenshot mostra l'editor visivo in AWS Glue Studio con la scheda Job details (Dettagli del processo) selezionata. La sezione Advanced properties (Proprietà avanzate) nella pagina viene espansa e vengono visualizzati i parametri Script filename (Nome del file di script) e Script path (Percorso dello script). Il campo Script filename (Nome del file di script) mostra Join test job.py e il campo Script path (Percorso dello script) mostra s3://aws-glue-assets-111122223333-u.

    Quando salvi il processo, AWS Glue salva lo script del processo nella posizione specificata da questi campi. Se modifichi il file di script in questa posizione all'interno di Amazon S3, AWS Glue Studio caricherà lo script modificato alla successiva modifica del processo.

Creazione e modifica di script Scala in AWS Glue Studio

Quando scegli l'editor di script per la creazione di un processo, per impostazione predefinita, il linguaggio di programmazione dei processi è impostato su Python 3. Se scegli di scrivere un nuovo script invece di caricarne uno, AWS Glue Studio avvia un nuovo script con testo boilerplate scritto in Python. Se invece vuoi scrivere uno script Scala, devi prima configurare l'editor di script per utilizzare Scala.

Nota

Se scegli Scala come linguaggio di programmazione per il processo e usi l'editor visivo per progettare il processo, lo script del processo generato viene scritto in Scala e non sono necessarie ulteriori azioni.

Come scrivere un nuovo script Scala in AWS Glue Studio
  1. Crea un nuovo processo scegliendo l'opzione Spark script editor (Editor di script Spark).

  2. Sotto Options (Opzioni), scegli Create a new script with boilerplate code (Crea un nuovo script con codice boilerplate).

  3. Seleziona Job details (Dettagli del processo) e imposta Language (Linguaggio) su Scala (invece di Python 3).

    Nota

    La proprietà Type (Tipo) per il processo viene automaticamente impostata su Spark quando scegli l'opzione Spark script editor (Editor di script Spark) per creare un processo.

  4. Seleziona la scheda Script.

  5. Rimuovi il testo boilerplate Python. Puoi sostituirlo con il seguente testo boilerplate Scala.

    import com.amazonaws.services.glue.{DynamicRecord, GlueContext} import org.apache.spark.SparkContext import com.amazonaws.services.glue.util.JsonOptions import com.amazonaws.services.glue.util.GlueArgParser import com.amazonaws.services.glue.util.Job object MyScript { def main(args: Array[String]): Unit = { val sc: SparkContext = new SparkContext() val glueContext: GlueContext = new GlueContext(sc) } }
  6. Scrivi lo script del processo Scala nell'editor. Aggiungi ulteriori istruzioni import in base alle esigenze.

Creazione e modifica di processi shell Python in AWS Glue Studio

Scegliendo l'editor di script shell Python per la creazione di un processo, puoi caricare uno script Python esistente o scriverne uno nuovo. Se scegli di scrivere un nuovo script, il codice boilerplate viene aggiunto al nuovo script del processo Python.

Per creare un nuovo processo shell Python

Fai riferimento alle istruzioni riportate in Avvio di processi in AWS Glue Studio.

Le proprietà del processo supportate per i processi shell Python non sono le stesse supportate per i processi Spark. Nell'elenco seguente vengono descritte le modifiche ai parametri di processo disponibili per i processi shell Python nella scheda Job details (Dettagli del processo).

  • La proprietà Type (Tipo) per il processo viene automaticamente impostata su Python Shell e non può essere modificata.

  • Invece di Language (Linguaggio), è presente la proprietà Python version (Versione di Python) per il processo. Al momento, i processi shell Python creati in AWS Glue Studio utilizzano Python 3.6.

  • La proprietà Glue version (Versione Glue) non è disponibile, perché non applicabile ai processi shell Python.

  • Invece di Worker type (Tipo di worker) e Number of workers (Numero di worker), è mostrata la proprietà Data processing units (Unità di elaborazione dati). Questa proprietà del processo determina quante unità di elaborazione dati (DPU) vengono utilizzate dalla shell Python durante l'esecuzione del processo.

  • La proprietà Job bookmark (Segnalibro del processo) non è disponibile, perché non è supportata per i processi shell Python.

  • Sotto Advanced properties (Proprietà avanzate), le seguenti proprietà non sono disponibili per i processi shell Python.

    • Parametri del processo

    • Registrazione continua

    • Spark UI (Interfaccia utente di Spark) e Spark UI logs path (Percorso dei log dell'interfaccia utente Spark)

    • Dependent jars path (Percorso file .jar dipendente), sotto la voce Libraries (Librerie).