Panoramica dell’utilizzo di AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Panoramica dell’utilizzo di AWS Glue

Con AWS Glue, puoi archiviare i metadati nel AWS Glue Data Catalog. Puoi utilizzare questi metadati per orchestrare i processi ETL che trasformano le origini dati e caricano il data warehouse o il data lake. Le fasi seguenti descrivono il flusso di lavoro generale e alcune delle scelte che effettui quando usi AWS Glue.

Nota

È possibile seguire i passaggi riportati di seguito oppure creare un flusso di lavoro che esegua automaticamente i passaggi da 1 a 3. Per ulteriori informazioni, consulta Esecuzione di attività ETL complesse utilizzando gli schemi e i flussi di lavoro in AWS Glue.

  1. Popola il AWS Glue Data Catalog con le definizioni di tabella.

    Nella console, per gli archivi dati persistenti, è possibile aggiungere un crawler per popolare AWS Glue Data Catalog. Puoi avviare la procedura guidata Add crawler (Aggiungi crawler) dall'elenco delle tabelle o dall'elenco dei crawler. Puoi scegliere uno o più datastore a cui accede il tuo crawler. Puoi anche creare una pianificazione per determinare la frequenza di esecuzione del crawler. Per i flussi di dati, è possibile creare manualmente la definizione della tabella e definire le proprietà del flusso.

    Facoltativamente, puoi fornire un classificatore personalizzato che ricava lo schema dei dati. Puoi creare classificatori personalizzati usando un pattern grok. AWS Glue fornisce tuttavia classificatori integrati che vengono usati automaticamente dai crawler se un classificatore personalizzato non riconosce i dati. Quando definisci un crawler, non devi necessariamente selezionare un classificatore. Per ulteriori informazioni sui classificatori in AWS Glue, consulta Definizione e gestione dei classificatori.

    Il crawling di alcuni tipi di datastore richiede una connessione che fornisce l'autenticazione e le informazioni sull'ubicazione. Se necessario, puoi creare una connessione che fornisce queste informazioni obbligatorie nella console AWS Glue.

    Il crawler legge il datastore e crea definizioni dei dati e tabelle denominate nel AWS Glue Data Catalog. Queste tabelle sono organizzate in un database di tua scelta. Puoi inoltre popolare il catalogo dati con tabelle create manualmente. Con questo metodo, fornisci lo schema e altri metadati per creare le definizioni di tabelle nel catalogo dati. Poiché questo metodo può essere un po' noioso e suscettibile di errori, spesso è meglio avere un crawler che crea le definizioni di tabella.

    Per ulteriori informazioni sul popolamento del AWS Glue Data Catalog con le definizioni di tabelle, consulta Creazione di tabelle.

  2. Definisci un processo che descrive la trasformazione dei dati dall'origine alla destinazione.

    Di solito, per creare un processo, devi effettuare le seguenti scelte:

    • Seleziona una tabella da AWS Glue Data Catalog da usare come origine del processo. Il processo utilizza questa definizione di tabella per accedere alla tua origine dati e interpretare il formato dei dati.

    • Seleziona una tabella o una posizione da AWS Glue Data Catalog da usare come destinazione del processo. Il processo utilizza queste informazioni per accedere al tuo datastore.

    • Indica a AWS Glue di generare uno script per trasformare l'origine nella destinazione. AWS Glue genera il codice per chiamare le trasformazioni integrate e convertire i dati dal formato dello schema di origine a quello dello schema di destinazione. Queste trasformazioni eseguono le operazioni quali copiare i dati, rinominare le colonne e filtrare i dati per trasformare i dati in base alle esigenze. Puoi modificare lo script nella console AWS Glue.

    Per ulteriori informazioni sulla definizione dei processi in AWS Glue, consulta Creazione di ETL lavori visivi con AWS Glue Studio.

  3. Esegui il tuo processo per trasformare i dati.

    Puoi eseguire il processo on demand oppure avviarlo in base a uno dei seguenti tipi di trigger:

    • Trigger basato su una pianificazione cron.

    • Trigger basato su un evento: ad esempio il completamento di un altro processo può avviare un processo AWS Glue.

    • Trigger che avvia un processo on demand.

    Per ulteriori informazioni sui trigger in AWS Glue, consulta Avvio di lavori e crawler utilizzando i trigger.

  4. Monitora i crawler pianificati e i processi attivati.

    Usa la console AWS Glue per visualizzare gli elementi seguenti:

    • Dettagli ed errori dell'esecuzione del processo.

    • Dettagli ed errori dell'esecuzione del crawler.

    • Notifiche sulle attività AWS Glue

    Per ulteriori informazioni sul monitoraggio di crawler e processi in AWS Glue, consulta Monitoraggio AWS Glue.