Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Crea una rete dati aziendale con Amazon DataZone e AWS CDKAWS CloudFormation
Creato da Dhrubajyoti Mukherjee (AWS), Adjoa Taylor (AWS), Ravi Kumar (AWS) e Weizhou Sun (AWS)
Riepilogo
Su Amazon Web Services (AWS), i clienti comprendono che i dati sono la chiave per accelerare l'innovazione e creare valore aziendale. Per gestire questa enorme quantità di dati, puoi adottare un'architettura decentralizzata come la data mesh. Un'architettura data mesh facilita la riflessione sul prodotto, una mentalità che tiene conto dei clienti, degli obiettivi e del mercato. La data mesh aiuta anche a stabilire un modello di governance federato che fornisce un accesso rapido e sicuro ai dati.
In Strategie per la creazione di una soluzione aziendale basata su data mesh viene AWS illustrato come utilizzare il Data Mesh Strategy Framework per formulare e implementare una strategia di data mesh per l'organizzazione. Utilizzando il Data Mesh Strategy Framework, puoi ottimizzare l'organizzazione dei team e le loro interazioni per accelerare il percorso verso la data mesh.
Questo documento fornisce indicazioni su come creare una rete dati aziendale con Amazon DataZone. Amazon DataZone è un servizio di gestione dei dati per la catalogazione, la scoperta, la condivisione e la gestione dei dati archiviati su fonti AWS, locali e di terze parti. Il modello include artefatti di codice che aiutano a implementare l'infrastruttura di soluzioni di dati basata su data mesh utilizzando e. AWS Cloud Development Kit (AWS CDK) AWS CloudFormation Questo modello è destinato agli architetti e agli ingegneri del cloud. DevOps
Per informazioni sugli obiettivi di questo modello e sull'ambito della soluzione, consulta la sezione Informazioni aggiuntive.
Prerequisiti e limitazioni
Prerequisiti
Almeno due account attivi Account AWS: uno per l'account di governance centrale e l'altro per l'account membro
AWS credenziali di amministratore per l'account di governance centrale nell'ambiente di sviluppo
AWS Command Line Interface (AWS CLI) installato per gestirlo Servizi AWS dalla riga di comando
Node.js e Node Package Manager (npm) installati
per gestire le applicazioni AWS CDK AWS CDK Toolkit installato a livello globale nell'ambiente di sviluppo utilizzando npm, per sintetizzare e distribuire applicazioni AWS CDK
npm install -g aws-cdk
Python versione 3.12 installata nel tuo ambiente di sviluppo
TypeScript installato nel tuo ambiente di sviluppo o installato globalmente utilizzando il compilatore npm:
npm install -g typescript
Docker installato nel tuo ambiente di sviluppo
Un sistema di controllo della versione come Git per mantenere il codice sorgente della soluzione (consigliato)
Un ambiente di sviluppo integrato (IDE) o un editor di testo con supporto per Python e TypeScript (fortemente consigliato)
Limitazioni
La soluzione è stata testata solo su macchine che eseguono Linux o macOS.
Nella versione attuale, la soluzione non supporta l'integrazione di Amazon DataZone e AWS IAM Identity Center per impostazione predefinita. Tuttavia, puoi configurarla per supportare questa integrazione.
Versioni del prodotto
Python versione 3.12
Architettura
Il diagramma seguente mostra un'architettura di riferimento per la rete di dati. L'architettura è basata su Amazon DataZone e utilizza Amazon Simple Storage Service (Amazon S3) AWS Glue Data Catalog e come fonti di dati. L'uso Servizi AWS che utilizzi con Amazon DataZone nell'implementazione della rete di dati potrebbe differire in base ai requisiti della tua organizzazione.

Nei conti dei produttori, i dati grezzi sono idonei al consumo nella loro forma attuale oppure vengono trasformati per il consumo utilizzando AWS Glue. I metadati tecnici per i dati vengono archiviati in Amazon S3 e valutati utilizzando AWS Glue un crawler di dati. La qualità dei dati viene misurata utilizzando Data Quality.AWS Glue Il database di origine nel catalogo dati è registrato come risorsa nel DataZone catalogo Amazon. Il DataZone catalogo Amazon è ospitato nell'account di governance centrale utilizzando Amazon DataZone Data Source Job.
L'account di governance centrale ospita il DataZone dominio Amazon e il portale DataZone dati Amazon. I produttori e i consumatori Account AWS di dati sono associati al DataZone dominio Amazon. I DataZone progetti Amazon dei produttori e dei consumatori di dati sono organizzati nelle corrispondenti unità di DataZone dominio Amazon.
Gli utenti finali degli asset di dati accedono al portale DataZone dati Amazon utilizzando le proprie credenziali AWS Identity and Access Management (IAM) o Single Sign-On (con integrazione tramite IAM Identity Center). Cercano, filtrano e visualizzano le informazioni sugli asset (ad esempio, informazioni sulla qualità dei dati o metadati aziendali e tecnici) nel catalogo DataZone dati di Amazon.
Dopo che un utente finale trova la risorsa di dati che desidera, utilizza la funzionalità di DataZone abbonamento Amazon per richiedere l'accesso. Il proprietario dei dati del team di produzione riceve una notifica e valuta la richiesta di abbonamento nel portale DataZone dati di Amazon. Il proprietario dei dati approva o rifiuta la richiesta di abbonamento in base alla sua validità.
Dopo che la richiesta di abbonamento è stata concessa e soddisfatta, si accede alla risorsa nell'account del consumatore per le seguenti attività:
Sviluppo di modelli AI/ML utilizzando Amazon AI SageMaker
Analisi e reportistica utilizzando Amazon Athena e Amazon QuickSight
Strumenti
Servizi AWS
Amazon Athena è un servizio di query interattivo che ti aiuta ad analizzare i dati direttamente in Amazon Simple Storage Service (Amazon S3) utilizzando SQL standard.
AWS Cloud Development Kit (AWS CDK)è un framework di sviluppo software che ti aiuta a definire e fornire l' Cloud AWS infrastruttura in codice.
AWS CloudFormationti aiuta a configurare AWS le risorse, fornirle in modo rapido e coerente e gestirle durante tutto il loro ciclo di vita tra Account AWS e. Regioni AWS
Amazon DataZone è un servizio di gestione dei dati che ti aiuta a catalogare, scoprire, condividere e gestire i dati archiviati su AWS, in sede e in fonti di terze parti.
Amazon QuickSight è un servizio di business intelligence (BI) su scala cloud che ti aiuta a visualizzare, analizzare e riportare i tuoi dati in un'unica dashboard.
Amazon SageMaker AI è un servizio di machine learning (ML) gestito che ti aiuta a creare e addestrare modelli di machine learning per poi distribuirli in un ambiente ospitato pronto per la produzione.
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
Amazon Simple Queue Service (Amazon SQS) fornisce una coda ospitata sicura, durevole e disponibile che ti aiuta a integrare e disaccoppiare sistemi e componenti software distribuiti.
Amazon Simple Storage Service (Amazon S3) è un servizio di archiviazione degli oggetti basato sul cloud che consente di archiviare, proteggere e recuperare qualsiasi quantità di dati.
Repository di codice
La soluzione è disponibile nel repository GitHub data-mesh-datazone-cdk-cloudformation
Epiche
Attività | Descrizione | Competenze richieste |
---|---|---|
Clonare il repository. | Per clonare il repository, esegui il seguente comando nel tuo ambiente di sviluppo locale (Linux o macOS):
| Architetto del cloud, ingegnere DevOps |
Creazione dell'ambiente | Per creare l'ambiente virtuale Python, esegui i seguenti comandi:
| Architetto del cloud, DevOps ingegnere |
Avvia l'account. | Per avviare l'account di governance centrale utilizzando AWS CDK, esegui il seguente comando:
Accedi a AWS Management Console, apri la console dell'account di governance centrale e ottieni l'Amazon Resource Name (ARN) del ruolo di AWS CDK esecuzione. | Architetto del cloud, DevOps ingegnere |
Costruisci il | Per costruire il
| Architetto del cloud, ingegnere DevOps |
Conferma la creazione del modello. | Assicuratevi che il file AWS CloudFormation modello sia stato creato nella | Architetto del cloud, DevOps ingegnere |
Attività | Descrizione | Competenze richieste |
---|---|---|
Modifica la configurazione. | Nel
Mantieni vuoti i parametri rimanenti. | Architetto del cloud, DevOps ingegnere |
Aggiorna la configurazione del DataZone glossario Amazon. | Per aggiornare la configurazione del DataZone glossario Amazon nel
| Architetto del cloud, DevOps ingegnere |
Aggiorna la configurazione del modulo di DataZone metadati Amazon. | Per aggiornare la configurazione del modulo di DataZone metadati Amazon in
| Architetto del cloud, DevOps ingegnere |
Esporta le AWS credenziali. | Per esportare AWS le credenziali nel tuo ambiente di sviluppo per il ruolo IAM con autorizzazioni amministrative, utilizza il seguente formato:
| Architetto del cloud, ingegnere DevOps |
Sintetizza il modello. | Per sintetizzare il AWS CloudFormation modello, esegui il seguente comando:
| Architetto del cloud, ingegnere DevOps |
Distribuire la soluzione. | Per distribuire la soluzione, esegui il comando seguente:
| Architetto del cloud, DevOps ingegnere |
Attività | Descrizione | Competenze richieste |
---|---|---|
Implementa il modello. | Distribuisci il AWS CloudFormation modello che si trova
| Architetto del cloud, ingegnere DevOps |
Aggiorna il ARNs. | Per aggiornare l'elenco dei ruoli di AWS CloudFormation StackSet esecuzione ARNs per gli account membri, utilizza il codice seguente:
| Architetto del cloud, DevOps ingegnere |
Sintetizza e distribuisci. | Per sintetizzare il AWS CloudFormation modello e distribuire la soluzione, esegui i seguenti comandi:
| Architetto del cloud, ingegnere DevOps |
Associa l'account membro. | Per associare l'account membro all'account di governance centrale, procedi come segue:
| Architetto del cloud, ingegnere DevOps |
Aggiorna i parametri. | Per aggiornare i parametri specifici dell'account membro nel file di configurazione in
| Architetto del cloud, ingegnere DevOps |
Sintetizza e implementa il modello. | Per sintetizzare il AWS CloudFormation modello e distribuire la soluzione, esegui i comandi seguenti:
| Architetto del cloud, ingegnere DevOps |
Aggiungi account per i membri. | Per creare e configurare account membro aggiuntivi nella soluzione dati, ripeti i passaggi precedenti per ogni account membro. Questa soluzione non distingue tra produttori di dati e consumatori. | Architetto del cloud, DevOps ingegnere |
Attività | Descrizione | Competenze richieste |
---|---|---|
Dissocia gli account dei membri. | Per dissociare gli account, procedi come segue:
| Architetto del cloud, DevOps ingegnere |
Elimina le istanze dello stack. | Per eliminare le istanze dello AWS CloudFormation stack, procedi come segue:
| Architetto del cloud, DevOps ingegnere |
Distruggi tutte le risorse. | Per distruggere le risorse, implementa i seguenti passaggi nel tuo ambiente di sviluppo locale (Linux o macOS):
| Architetto del cloud, DevOps ingegnere |
Risorse correlate
Informazioni aggiuntive
Obiettivi
L'implementazione di questo modello consente di ottenere quanto segue:
Proprietà decentralizzata dei dati ‒ Trasferisci la proprietà dei dati da un team centrale ai team che rappresentano i sistemi di origine, le unità aziendali o i casi d'uso dell'organizzazione.
Pensiero di prodotto ‒ Introduci una mentalità basata sul prodotto che includa i clienti, il mercato e altri fattori quando consideri le risorse di dati della tua organizzazione.
Governance federata ‒ Migliora le barriere di sicurezza, i controlli e la conformità tra i prodotti di dati dell'organizzazione.
Supporto per più account e più progetti ‒ Supporta la condivisione e la collaborazione dei dati efficienti e sicure tra le unità aziendali o i progetti dell'organizzazione.
Monitoraggio e notifiche centralizzati ‒ Monitora le risorse cloud della tua mesh di dati utilizzando Amazon CloudWatch e avvisa gli utenti quando viene associato un nuovo account membro.
Scalabilità ed estensibilità ‒ Aggiungi nuovi casi d'uso alla rete dati man mano che l'organizzazione si evolve.
Ambito della soluzione
Quando utilizzi questa soluzione, puoi iniziare con dimensioni ridotte e scalare man mano che avanzi nel percorso verso la rete di dati. Spesso, quando un account membro adotta la soluzione dati, contiene configurazioni di account specifiche per l'organizzazione, il progetto o l'unità aziendale. Questa soluzione si adatta a queste diverse Account AWS configurazioni supportando le seguenti funzionalità:
AWS Glue Data Catalog come fonte di dati per Amazon DataZone
Gestione del dominio DataZone dati Amazon e del relativo portale dati
Gestione dell'aggiunta di account membri nella soluzione di dati basata su data mesh
Gestione di DataZone progetti e ambienti Amazon
Gestione di DataZone glossari e moduli di metadati Amazon
Gestione dei ruoli IAM che corrispondono agli utenti della soluzione di dati basata su data mesh
Notifica agli utenti di soluzioni di dati basate su data mesh
Monitoraggio dell'infrastruttura cloud predisposta
Questa soluzione utilizza AWS CDK e AWS CloudFormation implementa l'infrastruttura cloud. Viene utilizzata AWS CloudFormation per eseguire le seguenti operazioni:
Definisci e distribuisci le risorse cloud a un livello di astrazione inferiore.
Implementa risorse cloud da. AWS Management Console Utilizzando questo approccio, è possibile implementare l'infrastruttura senza un ambiente di sviluppo.
La soluzione data mesh consente di definire le risorse AWS CDK a un livello di astrazione più elevato. Di conseguenza, la soluzione fornisce un approccio disaccoppiato, modulare e scalabile scegliendo lo strumento pertinente per implementare le risorse cloud.
Fasi successive
Puoi rivolgerti agli AWSesperti
La natura modulare di questa soluzione supporta la creazione di soluzioni di gestione dei dati con diverse architetture, come data fabric e data lake. Inoltre, in base ai requisiti della tua organizzazione, puoi estendere la soluzione ad altre fonti di DataZone dati Amazon.