Progetti e flussi di lavoro in Lake Formation - AWS Lake Formation

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Progetti e flussi di lavoro in Lake Formation

Un flusso di lavoro incapsula una complessa attività di estrazione, trasformazione e caricamento () composta da più processi. ETL I flussi di lavoro generano AWS Glue crawler, job e trigger per orchestrare il caricamento e l'aggiornamento dei dati. Lake Formation esegue e traccia un flusso di lavoro come un'unica entità. È possibile configurare un flusso di lavoro in modo che venga eseguito su richiesta o in base a una pianificazione.

I flussi di lavoro creati in Lake Formation sono visibili nel AWS Glue console come grafo aciclico diretto (). DAG Ogni DAG nodo è un job, un crawler o un trigger. Per monitorare l'avanzamento e risolvere i problemi, puoi tenere traccia dello stato di ogni nodo del flusso di lavoro.

Una volta completato un flusso di lavoro Lake Formation, all'utente che lo ha eseguito viene concessa l'SELECTautorizzazione Lake Formation sulle tabelle del Data Catalog create dal flusso di lavoro.

Puoi anche creare flussi di lavoro in AWS Glue. Tuttavia, poiché Lake Formation consente di creare un flusso di lavoro a partire da un progetto, la creazione di flussi di lavoro è molto più semplice e automatizzata in Lake Formation. Lake Formation fornisce i seguenti tipi di progetti:

  • Istantanea del database: carica o ricarica i dati da tutte le tabelle nel data lake da un'origine. JDBC È possibile escludere alcuni dati dall'origine in base a uno schema di esclusione.

  • Database incrementale: carica nel data lake solo nuovi dati da un'JDBCorigine, in base ai segnalibri impostati in precedenza. Si specificano le singole tabelle da includere nel database JDBC di origine. Per ogni tabella, scegli le colonne dei segnalibri e l'ordinamento dei segnalibri per tenere traccia dei dati che sono stati caricati in precedenza. La prima volta che si esegue un blueprint di database incrementale su un set di tabelle, il flusso di lavoro carica tutti i dati dalle tabelle e imposta i segnalibri per la successiva esecuzione del blueprint di database incrementale. È quindi possibile utilizzare un blueprint di database incrementale anziché il blueprint di snapshot del database per caricare tutti i dati, a condizione di specificare ogni tabella nell'origine dati come parametro.

  • File di registro: carica in blocco i dati da fonti di file di registro AWS CloudTrail, inclusi i log di Elastic Load Balancing e i log di Application Load Balancer.

Utilizza la tabella seguente per decidere se utilizzare uno snapshot del database o un blueprint di database incrementale.

Usa lo snapshot del database quando... Usa il database incrementale quando...
  • L'evoluzione dello schema è flessibile. (Le colonne vengono rinominate, le colonne precedenti vengono eliminate e al loro posto vengono aggiunte nuove colonne.)

  • È necessaria una coerenza completa tra l'origine e la destinazione.

  • L'evoluzione dello schema è incrementale. (Le colonne vengono aggiunte solo in successione).

  • Vengono aggiunte solo nuove righe; le righe precedenti non vengono aggiornate.

Nota

Gli utenti non possono modificare i progetti e i flussi di lavoro creati da Lake Formation.