Utilizzo di una query SQL per trasformare i dati - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di una query SQL per trasformare i dati

Puoi utilizzare una trasformazione SQL per scrivere la tua trasformazione sotto forma di query SQL.

Un nodo di trasformazione SQL può avere più set di dati come input, ma produce solo un singolo set di dati come output. Contiene un campo di testo, in cui puoi inserire la query Apache SparkSQL. Puoi assegnare alias a ciascun set di dati utilizzato come input, in modo da semplificare la query SQL. Per ulteriori informazioni sulla sintassi SQL, consulta la documentazione di Spark SQL.

Nota

Se utilizzi una trasformazione SQL Spark con un'origine dati situata in un VPC, aggiungi un endpoint VPC AWS Glue al VPC che contiene l'origine dati. Per ulteriori informazioni sulla configurazione degli endpoint di sviluppo, consulta Aggiunta di un endpoint di sviluppo, Impostazione dell'ambiente per endpoint di sviluppo e Accesso all'endpoint di sviluppo nella Guida per gli sviluppatori di AWS Glue.

Per aggiungere un nodo di trasformazione SQL al diagramma di processo
  1. (Facoltativo) Aggiungi un nodo di trasformazione al diagramma di processo, se necessario. Scegli Spark SQL per il tipo di nodo.

  2. Nella scheda Node properties (Proprietà del nodo), inserisci un nome per il nodo nel diagramma del processo. Se non è già selezionato un nodo padre, o se desideri più input per la trasformazione SQL, scegli un nodo dall'elenco Node parents (Nodi padre) da utilizzare come origine di input per la trasformazione. Aggiungi nodi padre aggiuntivi in base alle esigenze.

  3. Seleziona la scheda Transform (Trasformazione) nel pannello dei dettagli del nodo.

  4. I set di dati di origine per la query SQL sono identificati dai nomi specificati nel campo Name (Nome) per ogni nodo. Se non vuoi utilizzare questi nomi o se i nomi non sono adatti per una query SQL, puoi associare un nome a ciascun set di dati. La console fornisce alias predefiniti, ad esempio MyDataSource.

    Lo screenshot mostra un diagramma di processo a 3 nodi. Il primo nodo è un nodo di origine S3 denominato "This is a really long name". Il secondo nodo è un nodo di trasformazione codice SQL denominato "SQL query". Il terzo nodo è un nodo di destinazione dati S3 denominato "Revised flight data". Il nodo di query SQL è selezionato e la scheda Transform (Trasformazione) è visualizzata nel pannello dei dettagli del nodo. Nel pannello della scheda Transform (Trasformazione), il campo Input sources field (Origini di input) mostra una voce, "This is a really long name". Il campo alias Spark SQL associato mostra "myDataSource". Il campo Code block (Blocco di codice) mostra "select * from myDataSource".

    Ad esempio, se un nodo padre per il nodo di trasformazione SQL è denominato Rename Org PK field, è possibile associare il nome org_table a questo set di dati. Questo alias può quindi essere utilizzato nella query SQL al posto del nome del nodo.

  5. Nel campo di immissione testo sotto l'intestazione Code block (Blocco di codice), incolla o immetti la query SQL. Il campo di testo mostra la sintassi SQL evidenziata e i suggerimenti per le parole chiave.

  6. Con il nodo di trasformazione SQL selezionato, scegli l'opzione Output schema (Schema di output), quindi scegli Edit (Modifica). Specifica le colonne e i tipi di dati che descrivono i campi di output della query SQL.

    Specifica lo schema utilizzando le azioni seguenti nella sezione Output schema (Schema di output) della pagina:

    • Per rinominare una colonna, posiziona il cursore nella casella di testo Key (Chiave) per la colonna (nota anche come field (campo) o property key (chiave di proprietà) e inserisci il nuovo nome.

    • Per modificare il tipo di dati per una colonna, seleziona il nuovo tipo di dati per la colonna dall'elenco a discesa.

    • Per aggiungere una nuova colonna di livello superiore allo schema, scegli l'opzione Overflow ( A rectangle with an ellipsis (...) in the center ), quindi scegli Add root key (Aggiungi chiave root). Vengono aggiunte nuove colonne nella parte superiore dello schema.

    • Per rimuovere una colonna dallo schema, scegli l'icona di eliminazione ( An outline of a trash can ) all'estrema destra del nome della chiave.

  7. Una volta terminato di specificare lo schema di output, scegli Apply (Applica) per salvare le modifiche e uscire dall'editor dello schema. Se non vuoi salvare le modifiche, scegli Cancel (Annulla) per modificare l'editor dello schema.

  8. (Facoltativo) Dopo aver configurato le proprietà del nodo e le proprietà di trasformazione, puoi visualizzare il set di dati modificato scegliendo la scheda Data preview (Anteprima dei dati) nel pannello dei dettagli del nodo. La prima volta che si sceglie questa scheda per qualsiasi nodo del processo, viene richiesto di fornire un ruolo IAM per accedere ai dati. Esiste un costo per l'utilizzo di questa caratteristica e la fatturazione inizia non appena si fornisce un ruolo IAM.