Progettazione di un data lake per la crescita e la scalabilità sul Cloud AWS

Wei Shao, Amazon Web Services ()AWS

Ottobre 2021 (cronologia dei documenti)

Le organizzazioni progettano e costruiscono sempre più data lake sul cloud Amazon Web Services (AWS) come parte della loro strategia di modernizzazione dei dati. I data lake possono essere repository che archiviano dati strutturati e non strutturati su qualsiasi scala e li rendono disponibili a un'ampia gamma di utenti interni ed esterni.

Tuttavia, l'inserimento dei dati in data lake adatti ai casi d'uso aziendali in crescita può richiedere molto tempo e impegno. Per contribuire a ridurre i costi e massimizzare il valore generato dai dati, molte organizzazioni pianificano l'inserimento una tantum dei dati nel proprio data lake per poi utilizzarli più volte. La progettazione di un'architettura di data lake scalabile in base alla produzione, alla condivisione e al consumo dei dati è fondamentale per offrire valore agli stakeholder aziendali quando il data lake cresce.

Un'architettura di data lake scalabile fornisce all'organizzazione una solida base per ottenere valore dal data lake immettendo al contempo più dati al suo interno. Acquisendo continuamente informazioni sui dati senza subire rallentamenti o interruzioni a causa dei vincoli di scalabilità, un data lake scalabile aiuta anche l'organizzazione a rimanere competitiva.

In genere, un data lake ha produttori e consumatori di dati. I produttori di dati creano asset di dati raccogliendo, elaborando e archiviando i dati dal loro dominio di dati. Queste risorse di dati collettive costituiscono il contenuto del tuo data lake. I produttori di dati possono scegliere di condividere selettivamente le proprie risorse di dati con i consumatori di dati del data lake.

I consumatori di dati hanno bisogno dei dati dei produttori di dati per soddisfare i loro casi d'uso aziendali e possono anche occasionalmente combinare questi dati con i propri dati. I produttori di dati e i consumatori di dati fanno in genere, ma non sempre, parte dell'organizzazione. È importante sottolineare che possono essere sia produttori di dati che consumatori di dati allo stesso tempo.

Un'architettura di data lake scalabile ti aiuta a raggiungere i seguenti risultati:

Integra i produttori di dati su larga scala senza richiedere loro di mantenere l'intero processo di condivisione dei dati. Questo aiuta i produttori di dati a integrare i propri dati nel data lake e a concentrarsi sulla raccolta, l'elaborazione e l'archiviazione dei dati dal proprio dominio di dati.
Consenti ai consumatori di dati di accedere ai dati di più produttori di dati senza aumentare i costi complessivi e il sovraccarico di gestione.

Questa guida descrive le sfide di scalabilità comuni che possono verificarsi quando le organizzazioni fanno crescere il proprio data lake, fornisce un'architettura di riferimento per i data lake e delinea gli approcci per l'onboarding e la concessione dell'accesso ai produttori di dati e ai consumatori di dati. L'architettura di riferimento del data lake riportata in questa guida sfrutta le diverse caratteristiche e funzionalità fornite da. AWS Lake Formation La guida è destinata ai team responsabili della progettazione di data lake su Cloud AWS, inclusi architetti di dati aziendali, architetti di piattaforme dati, progettisti o responsabili di data domain.

Obiettivi aziendali specifici

Dopo aver progettato un data lake per la crescita e la scalabilità, dovresti aspettarti i Cloud AWS seguenti tre risultati su:

Riduci i costi generali di condivisione e consumo dei dati in più linee di business dell'organizzazione.
Un approccio sicuro e coerente che aiuta l'organizzazione a includere produttori di dati esterni e a condividere i dati con loro nel data lake.
Ottieni continuamente informazioni dettagliate sui dati senza subire rallentamenti o interruzioni a causa dei vincoli di scalabilità.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Sfide di scalabilità comuni