Panoramica dell’utilizzo di AWS Glue

Con AWS Glue, memorizzi i metadati in. AWS Glue Data Catalog Puoi utilizzare questi metadati per orchestrare i processi ETL che trasformano le origini dati e caricano il data warehouse o il data lake. Le fasi seguenti descrivono il flusso di lavoro generale e alcune delle scelte che effettui quando usi AWS Glue.

Nota

È possibile seguire i passaggi riportati di seguito oppure creare un flusso di lavoro che esegua automaticamente i passaggi da 1 a 3. Per ulteriori informazioni, consulta Esecuzione di attività ETL complesse utilizzando gli schemi e i flussi di lavoro in AWS Glue.

Compila il file AWS Glue Data Catalog con le definizioni delle tabelle.

Nella console, per gli archivi dati persistenti, è possibile aggiungere un crawler per popolare AWS Glue Data Catalog. Puoi avviare la procedura guidata Add crawler (Aggiungi crawler) dall'elenco delle tabelle o dall'elenco dei crawler. Puoi scegliere uno o più datastore a cui accede il tuo crawler. Puoi anche creare una pianificazione per determinare la frequenza di esecuzione del crawler. Per i flussi di dati, è possibile creare manualmente la definizione della tabella e definire le proprietà del flusso.

Facoltativamente, puoi fornire un classificatore personalizzato che ricava lo schema dei dati. Puoi creare classificatori personalizzati usando un pattern grok. AWS Glue fornisce tuttavia classificatori integrati che vengono usati automaticamente dai crawler se un classificatore personalizzato non riconosce i dati. Quando definisci un crawler, non devi necessariamente selezionare un classificatore. Per ulteriori informazioni sui classificatori in AWS Glue, consulta Definizione e gestione dei classificatori.

Il crawling di alcuni tipi di datastore richiede una connessione che fornisce l'autenticazione e le informazioni sull'ubicazione. Se necessario, puoi creare una connessione che fornisce queste informazioni obbligatorie nella console AWS Glue.

Il crawler legge il datastore e crea definizioni dei dati e tabelle denominate nel AWS Glue Data Catalog. Queste tabelle sono organizzate in un database di tua scelta. Puoi inoltre popolare il catalogo dati con tabelle create manualmente. Con questo metodo, fornisci lo schema e altri metadati per creare le definizioni di tabelle nel catalogo dati. Poiché questo metodo può essere un po' noioso e suscettibile di errori, spesso è meglio avere un crawler che crea le definizioni di tabella.

Per ulteriori informazioni sulla compilazione delle definizioni delle AWS Glue Data Catalog tabelle, vedere. Creazione di tabelle
Definisci un processo che descrive la trasformazione dei dati dall'origine alla destinazione.

Di solito, per creare un processo, devi effettuare le seguenti scelte:
- Scegliete una tabella tra AWS Glue Data Catalog quelle da utilizzare come fonte del lavoro. Il processo utilizza questa definizione di tabella per accedere alla tua origine dati e interpretare il formato dei dati.
- Scegli una tabella o una posizione tra AWS Glue Data Catalog quelle da utilizzare come destinazione del lavoro. Il processo utilizza queste informazioni per accedere al tuo datastore.
- Indica a AWS Glue di generare uno script per trasformare l'origine nella destinazione. AWS Glue genera il codice per chiamare le trasformazioni integrate e convertire i dati dal formato dello schema di origine a quello dello schema di destinazione. Queste trasformazioni eseguono le operazioni quali copiare i dati, rinominare le colonne e filtrare i dati per trasformare i dati in base alle esigenze. Puoi modificare lo script nella console AWS Glue.
Per ulteriori informazioni sulla definizione dei processi in AWS Glue, consulta Creazione di lavori ETL visivi.
Esegui il tuo processo per trasformare i dati.

Puoi eseguire il processo on demand oppure avviarlo in base a uno dei seguenti tipi di trigger:
- Trigger basato su una pianificazione cron.
- Trigger basato su un evento: ad esempio il completamento di un altro processo può avviare un processo AWS Glue.
- Trigger che avvia un processo on demand.
Per ulteriori informazioni sui trigger in AWS Glue, consulta Avvio di lavori e crawler utilizzando i trigger.
Monitora i crawler pianificati e i processi attivati.

Usa la console AWS Glue per visualizzare gli elementi seguenti:
- Dettagli ed errori dell'esecuzione del processo.
- Dettagli ed errori dell'esecuzione del crawler.
- Notifiche sulle attività AWS Glue
Per ulteriori informazioni sul monitoraggio di crawler e processi in AWS Glue, consulta Monitoraggio AWS Glue.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Nozioni di base

Impostazione delle autorizzazioni IAM