Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Progettazione di un data lake per la crescita e la scalabilità sulCloud AWS
Wei Shao, Amazon Web Services (AWS)
Ottobre 2021 (cronologia dei documenti)
Organizations progettano e costruiscono sempre più data lake sul cloud Amazon Web Services (AWS) come parte della loro strategia di modernizzazione dei dati. I data lake possono essere repository che archiviano i dati strutturati e non strutturati su qualsiasi scala e li rendono disponibili a un'ampia gamma di utenti interni ed esterni.
Tuttavia, l'inserimento dei dati nei data lake che soddisfano i crescenti casi d'uso aziendali può richiedere molto tempo e impegno. Per contribuire a ridurre i costi e massimizzare il valore generato dai dati, molte organizzazioni pianificano un inserimento di dati una tantum nel proprio data lake e quindi utilizzano questi dati più volte. La progettazione di un'architettura di data lake scalabile in base alla produzione, alla condivisione e al consumo dei dati è fondamentale per offrire valore agli stakeholder aziendali quando il data lake cresce.
Un'architettura di data lake scalabile fornisce all'organizzazione una solida base per ottenere valore dal data lake e allo stesso tempo inserire più dati al suo interno. Grazie all'acquisizione continua di informazioni sui dati senza rallentamenti o interruzioni a causa di vincoli di scalabilità, un data lake scalabile aiuta anche l'organizzazione a rimanere competitiva.
In genere, un data lake ha produttori e consumatori di dati. I produttori di dati creano risorse di dati raccogliendo, elaborando e archiviando dati dal loro dominio di dati. Queste risorse di dati collettive costituiscono il contenuto del tuo data lake. I produttori di dati possono scegliere di condividere selettivamente le proprie risorse di dati con i consumatori di dati del data lake.
I consumatori di dati hanno bisogno dei dati dei produttori di dati per soddisfare i loro casi d'uso aziendali e possono anche occasionalmente combinare questi dati con i propri dati. I produttori e i consumatori di dati fanno in genere, ma non sempre, parte dell'organizzazione. È importante sottolineare che possono essere entrambi produttori di dati o consumatori di dati allo stesso tempo.
Un'architettura di data lake scalabile consente di raggiungere i seguenti risultati:
-
Incorpora i produttori di dati su larga scala senza richiedere loro di mantenere l'intero processo di condivisione dei dati. Ciò aiuta i produttori di dati a integrare i propri dati nel data lake e a concentrarsi sulla raccolta, l'elaborazione e l'archiviazione dei dati dal proprio dominio di dati.
-
Consenti ai consumatori di dati di accedere ai dati di più produttori di dati senza aumentare i costi complessivi e le spese generali di gestione.
Questa guida descrive le sfide di scalabilità comuni che possono verificarsi quando le organizzazioni fanno crescere il proprio data lake, fornisce un'architettura di riferimento per i data lake e delinea gli approcci per l'onboarding e la concessione dell'accesso ai produttori e ai consumatori di dati. L'architettura di riferimento del data lake in questa guida sfrutta le diverse funzionalità e funzionalità fornite da AWS Lake Formation. La guida è destinata ai team responsabili della progettazione di data lake in ambito aziendaleCloud AWS, tra cui architetti di dati aziendali, architetti di piattaforme dati, progettisti o responsabili del dominio dei dati.
Risultati aziendali mirati
Dovresti aspettarti i seguenti tre risultati dopo aver progettato un data lake per la crescita e la scalabilità suCloud AWS:
-
Riduci i costi generali di condivisione e consumo dei dati in più linee di business della tua organizzazione.
-
Un approccio sicuro e coerente che aiuta la tua organizzazione a includere produttori di dati esterni e a condividere i dati con loro nel tuo data lake.
-
Ottieni continuamente informazioni dettagliate sui dati senza essere rallentati o interrotti a causa di vincoli di scalabilità.