Modifica dei nodi di trasformazione dei dati gestiti da AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Modifica dei nodi di trasformazione dei dati gestiti da AWS Glue

AWS Glue Studio offre due tipi di trasformazioni:

  • Trasformazioni native di AWS Glue: gestite da AWS Glue e disponibili per tutti gli utenti.

  • Trasformazioni visive personalizzate: consente di caricare le proprie trasformazioni da utilizzare in AWS Glue Studio

Nodi di trasformazione dei dati gestiti da AWS Glue

AWS Glue Studio offre un set di trasformazioni predefinite che puoi usare per elaborare i dati. I dati passano da un nodo nel diagramma di processo a un altro in una struttura di dati denominata DynamicFrame, che è un'estensione di un SQL Apache Spark DataFrame.

Nel diagramma precompilato per un processo, tra i nodi di origine dati e di destinazione dati si trova il nodo di trasformazione Modifica schema. È·possibile configurare questo nodo di trasformazione per modificare i dati oppure utilizzare ulteriori trasformazioni.

Le seguenti trasformazioni predefinite sono disponibili con AWS Glue Studio:

  • ChangeSchema: mappa le chiavi di proprietà dei dati nell'origine dati alle chiavi di proprietà dei dati nella destinazione dati. È possibile rinominare le chiavi, modificare i tipi di dati per le chiavi e scegliere le chiavi da eliminare dal set di dati.

  • SelectFields: scegli le chiavi di proprietà dei dati da conservare.

  • DropFields: scegli le chiavi di proprietà dei dati da eliminare.

  • RenameField: rinomina una singola chiave di proprietà dati.

  • Spigot: scrivi esempi dei dati in un bucket Amazon S3.

  • Join: esegui il join di due set di dati in un set di dati utilizzando una frase di confronto sulle chiavi di proprietà dei dati specificate. È possibile utilizzare inner, outer, left, right, left semi e left anti join.

  • Union: combina righe provenienti da più di un'origine dati che hanno lo stesso schema.

  • SplitFields: suddivide le chiavi di proprietà dei dati in due DynamicFrames. Output è una raccolta di DynamicFrames: uno con le chiavi di proprietà dei dati selezionate e uno con le chiavi di proprietà dei dati rimanenti.

  • SelectFromCollection: scegli un DynamicFrame da una raccolta di DynamicFrames. L'output è il DynamicFrame selezionato.

  • FillMissingValues: individua i registri nel set di dati con valori mancanti e aggiunge un nuovo campo con un valore determinato dall'imputazione

  • Filter: divide un set di dati in due, in base a una condizione di filtro.

  • DropNullFields: rimuove le colonne dal set di dati se tutti i valori nella colonna sono "null".

  • Elimina i duplicati: rimuove le righe dall'origine dati consentendo di scegliere se abbinare righe intere o specificare le chiavi.

  • SQL: inserisce il codice SparkSQL in un campo di inserimento testo per utilizzare una query SQL e trasformare i dati. L'output è un singolo DynamicFrame.

  • Aggregate: esegue un calcolo (ad esempio media, somma, min, max) su campi e righe selezionati e crea un nuovo campo con i valori appena calcolati.

  • Flatten: estrae i campi all'interno delle strutture in campi di primo livello.

  • UUID: aggiunge una colonna con un identificatore univoco universale per ogni riga.

  • Identifier: aggiunge una colonna con un identificatore numerico per ogni riga.

  • To timestamp: converte una colonna in un tipo di timestamp.

  • Format timestamp: converte una colonna di timestamp in una stringa formattata.

  • Conditional Router transform: applica più condizioni ai dati in ingresso. Ogni riga dei dati in ingresso viene valutata in base a una condizione di filtro di gruppo ed elaborata nel gruppo corrispondente.

  • Trasformazione Concatena colonne: crea una nuova colonna di stringhe utilizzando i valori di altre colonne con un distanziatore opzionale.

  • Trasformazione Dividi stringa: suddividi una stringa in un array di token utilizzando un'espressione regolare per definire come viene eseguita la suddivisione.

  • Trasformazione Array a colonne: estrai alcuni o tutti gli elementi di una colonna di tipo array in nuove colonne.

  • Trasformazione Aggiungi timestamp corrente: contrassegna le righe con l'ora in cui i dati sono stati elaborati. Ciò è utile per scopi di controllo o per tenere traccia della latenza nella pipeline di dati.

  • Trasformazione Pivot: righe a colonne: aggrega una colonna numerica ruotando valori univoci su colonne selezionate che diventano nuove colonne. Se sono selezionate più colonne, i valori vengono concatenati per denominare le nuove colonne.

  • Trasformazione Elimina pivot: righe a colonne: converti le colonne in valori di nuove colonne generando una riga per ogni valore univoco.

  • Trasformazione Bilancia automaticamente elaborazione: ridistribuisci i dati tra i worker per migliorare le prestazioni. Ciò è utile nei casi in cui i dati non sono bilanciati o, poiché provengono dall'origine, non consentono un'elaborazione parallela sufficiente.

  • Trasformazione Colonna derivata: definisci una nuova colonna basata su una formula matematica o un'espressione SQL in cui è possibile utilizzare altre colonne nei dati, oltre a costanti e valori letterali.

  • Trasformazione Ricerca: aggiungi colonne da una tabella di catalogo definita quando le chiavi corrispondono alle colonne di ricerca definite nei dati.

  • Trasformazione Espandi array o mappa: estrae i valori da una struttura annidata in singole righe più facili da manipolare.

  • Trasformazione Corrispondenza dei record: richiama una trasformazione di classificazione dei dati di machine learning Corrispondenza dei record esistente.

  • Trasformazione Rimuovi righe nulle: rimuove dal set di dati le righe che hanno tutte le colonne come nulle o vuote.

  • Trasformazione Analizza colonna JSON: analizza una colonna di stringhe contenente dati JSON e convertila in una struttura o in una colonna di array, a seconda che il JSON sia rispettivamente un oggetto o un array.

  • Trasformazione Estrai percorso JSON: estrai nuove colonne da una colonna di stringhe JSON.

  • Trasformazione Estrai frammenti di stringa con un'espressione regolare: estrai frammenti di stringa utilizzando un'espressione regolare e crea a partire da essa una nuova colonna o anche più colonne, se si utilizzano gruppi di espressioni regolari.

  • Custom transform: inserisce il codice in un campo di inserimento testo per utilizzare le trasformazioni personalizzate. L'output è una raccolta di DynamicFrames.