Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Terminologia dei Lake Formation
Di seguito sono riportati alcuni termini importanti che incontrerai in questa guida.
Lago di dati
Il data lake è costituito dai tuoi dati persistenti archiviati in Amazon S3 e gestiti da Lake Formation utilizzando un Data Catalog. Un data lake in genere memorizza quanto segue:
-
Dati strutturati e non strutturati
-
Dati grezzi e dati trasformati
Affinché un percorso Amazon S3 si trovi all'interno di un data lake, deve essere registrato presso Lake Formation.
Accesso ai dati
Lake Formation fornisce un accesso sicuro e granulare ai dati attraverso un nuovo modello di autorizzazioni di concessione/revoca che aumenta le politiche (). AWS Identity and Access Management IAM
Analisti e data scientist possono utilizzare l'intero portafoglio di servizi di AWS analisi e apprendimento automatico, come Amazon Athena, per accedere ai dati. Le politiche di sicurezza configurate di Lake Formation aiutano a garantire che gli utenti possano accedere solo ai dati a cui sono autorizzati ad accedere.
Modalità di accesso ibrida
La modalità di accesso ibrido ti consente di proteggere e accedere ai dati catalogati utilizzando sia le autorizzazioni Lake Formation che le autorizzazioni Amazon IAM S3. La modalità di accesso ibrido consente agli amministratori dei dati di integrare le autorizzazioni di Lake Formation in modo selettivo e incrementale, concentrandosi su un caso d'uso del data lake alla volta.
Piano
Un blueprint è un modello di gestione dei dati che consente di inserire facilmente i dati in un data lake. Lake Formation fornisce diversi modelli, ciascuno per un tipo di sorgente predefinito, come un database relazionale o dei log. AWS CloudTrail Da un blueprint, puoi creare un flusso di lavoro. I flussi di lavoro sono costituiti da AWS Glue crawler, job e trigger generati per orchestrare il caricamento e l'aggiornamento dei dati. I blueprint utilizzano l'origine dei dati, la destinazione dei dati e la pianificazione come input per configurare il flusso di lavoro.
Flusso di lavoro
Un flusso di lavoro è un contenitore per un insieme di elementi correlati AWS Glue lavori, crawler e trigger. Il flusso di lavoro viene creato in Lake Formation e viene eseguito in AWS Glue servizio. Lake Formation è in grado di tracciare lo stato di un flusso di lavoro come singola entità.
Quando si definisce un flusso di lavoro, si seleziona il progetto su cui si basa. È quindi possibile eseguire flussi di lavoro su richiesta o in base a una pianificazione.
I flussi di lavoro creati in Lake Formation sono visibili nel AWS Glue console come grafo aciclico diretto (). DAG UtilizzandoDAG, è possibile tenere traccia dell'avanzamento del flusso di lavoro ed eseguire la risoluzione dei problemi.
Catalogo dati
Il Data Catalog è il tuo archivio di metadati persistente. È un servizio gestito che ti consente di archiviare, annotare e condividere i metadati nel AWS cloud nello stesso modo in cui faresti in un metastore Apache Hive. Fornisce un repository uniforme in cui diversi sistemi possono archiviare e trovare metadati per tenere traccia dei dati in silos di dati e quindi utilizzare tali metadati per interrogare e trasformare i dati. Lake Formation utilizza il AWS Glue Data Catalog per archiviare metadati su data lake, fonti di dati, trasformazioni e destinazioni.
I metadati sulle fonti di dati e sulle destinazioni sono sotto forma di database e tabelle. Le tabelle memorizzano informazioni sullo schema, informazioni sulla posizione e altro ancora. I database sono raccolte di tabelle. Lake Formation fornisce una gerarchia di autorizzazioni per controllare l'accesso a database e tabelle nel Data Catalog.
Ogni AWS account dispone di un catalogo dati per regione. AWS
Dati sottostanti
I dati sottostanti si riferiscono ai dati di origine o ai dati all'interno dei data lake a cui fanno riferimento le tabelle del Data Catalog.
Principale
Un principale è un utente o un ruolo AWS Identity and Access Management (IAM) o un utente di Active Directory.
Amministratore del data lake
Un amministratore del data lake è un responsabile che può concedere a qualsiasi principale (incluso se stesso) qualsiasi autorizzazione su qualsiasi risorsa o posizione dei dati del Data Catalog. Designare un amministratore del data lake come primo utente del Data Catalog. Questo utente può quindi concedere autorizzazioni più granulari sulle risorse ad altri responsabili.
Nota
IAMgli utenti amministrativi, ossia gli utenti con la policy AdministratorAccess
AWS
gestita, non sono automaticamente amministratori del data lake. Ad esempio, non possono concedere le autorizzazioni di Lake Formation sugli oggetti del catalogo a meno che non abbiano ottenuto le autorizzazioni per farlo. Tuttavia, possono utilizzare la console Lake Formation o API designarsi come amministratori di data lake.
Per informazioni sulle funzionalità di un amministratore di data lake, consulta. Autorizzazioni implicite di Lake Formation Per informazioni sulla designazione di un utente come amministratore del data lake, consultaCrea un amministratore del data lake.