Destinatari principali Obiettivi aziendali specifici

Definizione dei nomi dei bucket e dei percorsi di Amazon S3 per i livelli di data lake

Andrés Cantor, Amazon Web Services

Aprile 2025 (cronologia del documento)

Questa guida ti aiuta a creare uno standard di denominazione coerente per i bucket e i percorsi di Amazon Simple Storage Service (Amazon S3) nei data lake ospitati su. Cloud AWS Lo standard di denominazione della guida per i bucket e i percorsi di Amazon S3 ti aiuta a migliorare la governance e l'osservabilità nei tuoi data lake, a identificare i costi per livello di dati Account AWS e fornisce un approccio per la AWS Identity and Access Management denominazione di ruoli e politiche (IAM).

Ti consigliamo di utilizzare almeno tre livelli di dati nei tuoi data lake e che ogni livello utilizzi un bucket Amazon S3 separato. Tuttavia, alcuni casi d'uso potrebbero richiedere un bucket e un livello dati Amazon S3 aggiuntivi, a seconda dei tipi di dati generati e archiviati. Ad esempio, se memorizzi dati sensibili, ti consigliamo di utilizzare un livello dati di landing zone e un bucket Amazon S3 separato. L'elenco seguente descrive i tre livelli di dati consigliati per il tuo data lake:

Livello dati grezzi: contiene dati non elaborati ed è il livello in cui i dati vengono inizialmente inseriti. Se possibile, ti consigliamo di mantenere il formato di file originale e di attivare il controllo delle versioni nel bucket Amazon S3.
Stage data layer: contiene dati intermedi ed elaborati ottimizzati per il consumo (ad esempio file raw convertiti da CSV ad Apache Parquet o trasformazioni di dati). Un AWS Glue processo legge i file dal livello raw e convalida i dati. Il AWS Glue lavoro memorizza quindi i dati in un file in formato Apache Parquet e i metadati vengono archiviati in una tabella in. AWS Glue Data Catalog
Livello dati di analisi: contiene i dati aggregati per i casi d'uso specifici in un formato pronto per l'uso, come Apache Parquet.

Destinatari principali

I consigli di questa guida si basano sull'esperienza degli autori nell'implementazione dei data lake con il serverless data lake framework (SDLF) e sono destinati agli architetti di dati, ai data engineer o agli architetti di soluzioni che desiderano configurare un data lake su. Cloud AWS Tuttavia, assicuratevi di adattare l'approccio di questa guida per soddisfare le politiche e i requisiti della vostra organizzazione.

La guida contiene le seguenti sezioni:

Obiettivi aziendali specifici

Dopo l'implementazione di uno standard di denominazione per i bucket e i percorsi Amazon S3 nei data lake su: Cloud AWS

Migliore governance del data lake grazie alla possibilità di fornire politiche di accesso differenziate ai bucket
Maggiore visibilità sui costi complessivi per i singoli utenti Account AWS utilizzando l' Account AWS ID pertinente nel nome del bucket Amazon S3 e per i livelli di dati utilizzando i tag di allocazione dei costi per i bucket
Archiviazione dei dati più conveniente utilizzando il controllo delle versioni basato su livelli e politiche del ciclo di vita basate sui percorsi
Soddisfa i requisiti di sicurezza per il mascheramento e la crittografia dei dati
Semplifica la tracciabilità delle fonti di dati migliorando la visibilità degli Regione AWS sviluppatori sull' Account AWS archiviazione dei dati sottostante

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Livelli di dati consigliati