Definizione dei nomi dei bucket e dei percorsi S3 per i livelli di data lake sulAWS cloud - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Definizione dei nomi dei bucket e dei percorsi S3 per i livelli di data lake sulAWS cloud

Isabelle Imacseng, Samuel Schmidt e Andrés Cantor, Amazon Web Services (AWS)

Novembre 2021 (cronologia dei documenti)

Questa guida consente di creare uno standard di denominazione coerente per i bucket e i percorsi di Amazon Simple Storage Service (Amazon S3) nei data lake ospitati nel cloud Amazon Web Services (AWS). Lo standard di denominazione della guida per bucket e percorsi S3 aiuta a migliorare la governance e l'osservabilità nei data lake, a identificare i costi per livello di dati eAccount AWS fornisce un approccio per la denominazione dei ruoli e delle politicheAWS Identity and Access Management (IAM).

Si consiglia di utilizzare almeno tre livelli di dati nei data lake e che ogni livello utilizzi un bucket S3 separato. Tuttavia, alcuni casi d'uso potrebbero richiedere un bucket S3 e un layer di dati aggiuntivi, a seconda dei tipi di dati generati e archiviati. Ad esempio, se memorizzi dati sensibili, ti consigliamo di utilizzare un layer di dati della landing zone e un bucket S3 separato. L'elenco seguente descrive i tre livelli di dati consigliati per il data lake:

  • Livello di dati grezzi: contiene dati grezzi ed è il livello in cui i dati vengono inizialmente inseriti. Se possibile, ti consigliamo di mantenere il formato del file originale e di attivare il controllo delle versioni nel bucket S3.

  • Stage data layer: contiene dati intermedi elaborati ottimizzati per il consumo (ad esempio file raw convertiti da CSV a Apache Parquet o trasformazioni di dati). UnAWS Glue job legge i file dal layer grezzo e convalida i dati. IlAWS Glue lavoro quindi memorizza i dati in un file in formato Apache Parquet e i metadati vengono archiviati in una tabella nel catalogoAWS Glue dati.

  • Livello dati di analisi: contiene i dati aggregati per i casi d'uso specifici in un formato pronto per l'uso (ad esempio, Apache Parquet).

Le raccomandazioni di questa guida si basano sull'esperienza degli autori nell'implementazione dei data lake con il framework serverless data lake (SDLF) e sono rivolte agli architetti dei dati, agli ingegneri dei dati o agli architetti di soluzioni che desiderano configurare un data lake suCloud AWS. Tuttavia, devi assicurarti di adattare l'approccio di questa guida per soddisfare le politiche e i requisiti della tua organizzazione.

La guida contiene le sezioni seguenti:

Risultati di ufficio mirati

Dovresti aspettarti i seguenti cinque risultati dopo l'implementazione di uno standard di denominazione per bucket e percorsi S3 nei data lake sulAWS cloud:

  • Governance e osservabilità migliorate nel tuo data lake.

  • Maggiore visibilità dei costi complessivi per i singoliAccount AWS utenti utilizzando l'IDAWS account pertinente nel nome del bucket S3 e per i livelli di dati utilizzando i tag di allocazione dei costi per i bucket S3.

  • Archiviazione dei dati più conveniente utilizzando il controllo delle versioni basato su livelli e politiche del ciclo di vita basate sui percorsi.

  • Soddisfa i requisiti di sicurezza per il mascheramento e la crittografia dei dati.

  • Semplifica il tracciamento delle fonti di dati migliorando laRegione AWS visibilità degli sviluppatori fino alla fineAccount AWS dell'archiviazione dei dati sottostante.