Lago di dati Accesso ai dati Modalità di accesso ibrida Piano Flusso di lavoro Catalogo dati Dati sottostanti Principale Amministratore del data lake

Terminologia dei Lake Formation

Di seguito sono riportati alcuni termini importanti che incontrerai in questa guida.

Lago di dati

Il data lake è costituito dai tuoi dati persistenti archiviati in Amazon S3 e gestiti da Lake Formation utilizzando un Data Catalog. Un data lake in genere archivia quanto segue:

Dati strutturati e non strutturati
Dati grezzi e dati trasformati

Affinché un percorso Amazon S3 si trovi all'interno di un data lake, deve essere registrato presso Lake Formation.

Accesso ai dati

Lake Formation fornisce un accesso sicuro e granulare ai dati attraverso un nuovo modello di autorizzazioni di concessione/revoca che aumenta le politiche (IAM). AWS Identity and Access Management

Analisti e data scientist possono utilizzare l'intero portafoglio di servizi di AWS analisi e apprendimento automatico, come Amazon Athena, per accedere ai dati. Le politiche di sicurezza configurate di Lake Formation aiutano a garantire che gli utenti possano accedere solo ai dati a cui sono autorizzati ad accedere.

Modalità di accesso ibrida

La modalità di accesso ibrida consente di proteggere e accedere ai dati catalogati utilizzando sia le autorizzazioni Lake Formation che le autorizzazioni IAM e Amazon S3. La modalità di accesso ibrido consente agli amministratori dei dati di integrare le autorizzazioni di Lake Formation in modo selettivo e incrementale, concentrandosi su un caso d'uso del data lake alla volta.

Piano

Un blueprint è un modello di gestione dei dati che consente di inserire facilmente i dati in un data lake. Lake Formation fornisce diversi modelli, ciascuno per un tipo di sorgente predefinito, come un database relazionale o dei log. AWS CloudTrail Da un blueprint, puoi creare un flusso di lavoro. I flussi di lavoro sono costituiti da AWS Glue crawler, job e trigger generati per orchestrare il caricamento e l'aggiornamento dei dati. I blueprint utilizzano l'origine dei dati, la destinazione dei dati e la pianificazione come input per configurare il flusso di lavoro.

Flusso di lavoro

Un flusso di lavoro è un contenitore per un insieme di elementi correlati AWS Glue lavori, crawler e trigger. Il flusso di lavoro viene creato in Lake Formation e viene eseguito in AWS Glue servizio. Lake Formation è in grado di tracciare lo stato di un flusso di lavoro come singola entità.

Quando si definisce un flusso di lavoro, si seleziona il progetto su cui si basa. È quindi possibile eseguire flussi di lavoro su richiesta o in base a una pianificazione.

I flussi di lavoro creati in Lake Formation sono visibili nel AWS Glue console come grafo aciclico diretto (DAG). Utilizzando il DAG, è possibile tenere traccia dell'avanzamento del flusso di lavoro ed eseguire la risoluzione dei problemi.

Catalogo dati

Il Data Catalog è il tuo archivio di metadati persistente. È un servizio gestito che ti consente di archiviare, annotare e condividere i metadati nel AWS cloud nello stesso modo in cui faresti in un metastore Apache Hive. Fornisce un repository uniforme in cui diversi sistemi possono archiviare e trovare metadati per tenere traccia dei dati in silos di dati e quindi utilizzare tali metadati per interrogare e trasformare i dati. Lake Formation utilizza il AWS Glue Data Catalog per archiviare metadati su data lake, fonti di dati, trasformazioni e destinazioni.

I metadati sulle fonti di dati e sulle destinazioni sono sotto forma di database e tabelle. Le tabelle memorizzano informazioni sullo schema, informazioni sulla posizione e altro ancora. I database sono raccolte di tabelle. Lake Formation fornisce una gerarchia di autorizzazioni per controllare l'accesso ai database e alle tabelle nel Data Catalog.

Ogni AWS account dispone di un catalogo dati per regione. AWS

Dati sottostanti

I dati sottostanti si riferiscono ai dati di origine o ai dati all'interno dei data lake a cui fanno riferimento le tabelle del Data Catalog.

Principale

Un principale è un utente o un ruolo AWS Identity and Access Management (IAM) o un utente di Active Directory.

Amministratore del data lake

Un amministratore del data lake è un responsabile che può concedere a qualsiasi principale (incluso se stesso) qualsiasi autorizzazione su qualsiasi risorsa o posizione dei dati del Data Catalog. Designare un amministratore del data lake come primo utente del Data Catalog. Questo utente può quindi concedere autorizzazioni più granulari sulle risorse ad altri responsabili.

Nota

Gli utenti amministrativi IAM, ovvero gli utenti con la policy AdministratorAccess AWS gestita, non sono automaticamente amministratori di data lake. Ad esempio, non possono concedere le autorizzazioni di Lake Formation sugli oggetti del catalogo a meno che non abbiano ottenuto le autorizzazioni per farlo. Tuttavia, possono utilizzare la console o l'API di Lake Formation per designarsi amministratori di data lake.

Per informazioni sulle funzionalità di un amministratore di data lake, consulta. Autorizzazioni implicite di Lake Formation Per informazioni sulla designazione di un utente come amministratore del data lake, consultaCrea un amministratore del data lake.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Componenti di Lake Formation

AWS integrazioni di servizi con Lake Formation