Progetti e flussi di lavoro in Lake Formation

Un flusso di lavoro racchiude una complessa attività di estrazione, trasformazione e caricamento (ETL) che coinvolge più processi. I flussi di lavoro generano AWS Glue crawler, job e trigger per orchestrare il caricamento e l'aggiornamento dei dati. Lake Formation esegue e traccia un flusso di lavoro come un'unica entità. È possibile configurare un flusso di lavoro in modo che venga eseguito su richiesta o in base a una pianificazione.

Nota

Spark parquet writer non supporta caratteri speciali nei nomi delle colonne. Questa è una limitazione tecnica dello scrittore stesso, non un problema di configurazione.

I flussi di lavoro creati in Lake Formation sono visibili nella AWS Glue console come grafo aciclico diretto (DAG). Ogni nodo DAG è un job, un crawler o un trigger. Per monitorare l'avanzamento e risolvere i problemi, è possibile tenere traccia dello stato di ogni nodo del flusso di lavoro.

Una volta completato un flusso di lavoro Lake Formation, all'utente che lo ha eseguito viene concessa l'SELECTautorizzazione Lake Formation per le tabelle del Data Catalog create dal flusso di lavoro.

Puoi anche creare flussi di lavoro inAWS Glue. Tuttavia, poiché Lake Formation consente di creare un flusso di lavoro a partire da un progetto, la creazione di flussi di lavoro è molto più semplice e automatizzata in Lake Formation. Lake Formation fornisce i seguenti tipi di progetti:

Istantanea del database: carica o ricarica i dati da tutte le tabelle nel data lake da una fonte JDBC. È possibile escludere alcuni dati dall'origine in base a uno schema di esclusione.
Database incrementale: carica nel data lake solo nuovi dati da una fonte JDBC, in base ai segnalibri impostati in precedenza. Si specificano le singole tabelle da includere nel database di origine JDBC. Per ogni tabella, scegli le colonne dei segnalibri e l'ordinamento dei segnalibri per tenere traccia dei dati che sono stati caricati in precedenza. La prima volta che si esegue un blueprint di database incrementale su un set di tabelle, il flusso di lavoro carica tutti i dati dalle tabelle e imposta i segnalibri per la successiva esecuzione del blueprint di database incrementale. È quindi possibile utilizzare un blueprint di database incrementale anziché il blueprint di snapshot del database per caricare tutti i dati, a condizione di specificare ogni tabella nell'origine dati come parametro.
File di registro: carica in blocco i dati da fonti di file di registro AWS CloudTrail, inclusi i log di Elastic Load Balancing e i log di Application Load Balancer.

Utilizza la tabella seguente per decidere se utilizzare uno snapshot del database o un blueprint di database incrementale.

Usa lo snapshot del database quando...	Usa il database incrementale quando...
L'evoluzione dello schema è flessibile. (Le colonne vengono rinominate, le colonne precedenti vengono eliminate e al loro posto vengono aggiunte nuove colonne.) È necessaria una coerenza completa tra l'origine e la destinazione.	L'evoluzione dello schema è incrementale. (Le colonne vengono aggiunte solo in successione). Vengono aggiunte solo nuove righe; le righe precedenti non vengono aggiornate.

Nota

Gli utenti non possono modificare i progetti e i flussi di lavoro creati da Lake Formation.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Importazione di dati tramite flussi di lavoro

Creazione di un flusso di lavoro