Progettazione di un data lake per la crescita e la scalabilità sulCloud AWS - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Progettazione di un data lake per la crescita e la scalabilità sulCloud AWS

Wei Shao, Amazon Web Services (AWS)

Ottobre 2021 (cronologia dei documenti)

Organizations progettano e costruiscono sempre più data lake sul cloud Amazon Web Services (AWS) come parte della loro strategia di modernizzazione dei dati. I data lake possono essere repository che archiviano i dati strutturati e non strutturati su qualsiasi scala e li rendono disponibili a un'ampia gamma di utenti interni ed esterni.

Tuttavia, l'inserimento dei dati nei data lake che soddisfano i crescenti casi d'uso aziendali può richiedere molto tempo e impegno. Per contribuire a ridurre i costi e massimizzare il valore generato dai dati, molte organizzazioni pianificano un inserimento di dati una tantum nel proprio data lake e quindi utilizzano questi dati più volte. La progettazione di un'architettura di data lake scalabile in base alla produzione, alla condivisione e al consumo dei dati è fondamentale per offrire valore agli stakeholder aziendali quando il data lake cresce.

Un'architettura di data lake scalabile fornisce all'organizzazione una solida base per ottenere valore dal data lake e allo stesso tempo inserire più dati al suo interno. Grazie all'acquisizione continua di informazioni sui dati senza rallentamenti o interruzioni a causa di vincoli di scalabilità, un data lake scalabile aiuta anche l'organizzazione a rimanere competitiva.

In genere, un data lake ha produttori e consumatori di dati. I produttori di dati creano risorse di dati raccogliendo, elaborando e archiviando dati dal loro dominio di dati. Queste risorse di dati collettive costituiscono il contenuto del tuo data lake. I produttori di dati possono scegliere di condividere selettivamente le proprie risorse di dati con i consumatori di dati del data lake.

I consumatori di dati hanno bisogno dei dati dei produttori di dati per soddisfare i loro casi d'uso aziendali e possono anche occasionalmente combinare questi dati con i propri dati. I produttori e i consumatori di dati fanno in genere, ma non sempre, parte dell'organizzazione. È importante sottolineare che possono essere entrambi produttori di dati o consumatori di dati allo stesso tempo.

Un'architettura di data lake scalabile consente di raggiungere i seguenti risultati:

  • Incorpora i produttori di dati su larga scala senza richiedere loro di mantenere l'intero processo di condivisione dei dati. Ciò aiuta i produttori di dati a integrare i propri dati nel data lake e a concentrarsi sulla raccolta, l'elaborazione e l'archiviazione dei dati dal proprio dominio di dati.

  • Consenti ai consumatori di dati di accedere ai dati di più produttori di dati senza aumentare i costi complessivi e le spese generali di gestione.

Questa guida descrive le sfide di scalabilità comuni che possono verificarsi quando le organizzazioni fanno crescere il proprio data lake, fornisce un'architettura di riferimento per i data lake e delinea gli approcci per l'onboarding e la concessione dell'accesso ai produttori e ai consumatori di dati. L'architettura di riferimento del data lake in questa guida sfrutta le diverse funzionalità e funzionalità fornite da AWS Lake Formation. La guida è destinata ai team responsabili della progettazione di data lake in ambito aziendaleCloud AWS, tra cui architetti di dati aziendali, architetti di piattaforme dati, progettisti o responsabili del dominio dei dati.

Risultati aziendali mirati

Dovresti aspettarti i seguenti tre risultati dopo aver progettato un data lake per la crescita e la scalabilità suCloud AWS:

  • Riduci i costi generali di condivisione e consumo dei dati in più linee di business della tua organizzazione.

  • Un approccio sicuro e coerente che aiuta la tua organizzazione a includere produttori di dati esterni e a condividere i dati con loro nel tuo data lake.

  • Ottieni continuamente informazioni dettagliate sui dati senza essere rallentati o interrotti a causa di vincoli di scalabilità.