Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Bauen Sie mit Amazon ein Datennetz für Unternehmen auf DataZone AWS CDK, und AWS CloudFormation
Erstellt von Dhrubajyoti Mukherjee (AWS), Adjoa Taylor (), Ravi Kumar () und Weizhou Sun () AWS AWS AWS
Übersicht
Bei Amazon Web Services (AWS) wissen Kunden, dass Daten der Schlüssel zur Beschleunigung von Innovationen und zur Steigerung des Geschäftswerts für ihr Unternehmen sind. Um diese riesigen Datenmengen zu verwalten, können Sie eine dezentrale Architektur wie Data Mesh einsetzen. Eine Data-Mesh-Architektur erleichtert das Produktdenken, eine Denkweise, die Kunden, Ziele und den Markt berücksichtigt. Data Mesh hilft auch dabei, ein föderiertes Governance-Modell zu etablieren, das einen schnellen und sicheren Zugriff auf Ihre Daten ermöglicht.
Unter Strategien für den Aufbau einer auf Datennetzen basierenden Unternehmenslösung AWS wird erläutert, wie Sie das Data Mesh Strategy Framework verwenden können, um eine Data-Mesh-Strategie für Ihr Unternehmen zu formulieren und zu implementieren. Mithilfe des Data Mesh Strategy Framework können Sie die Organisation von Teams und deren Interaktionen optimieren, um Ihre Datennetzentwicklung zu beschleunigen.
Dieses Dokument enthält Anleitungen zum Aufbau eines Unternehmensdatennetzes mit Amazon DataZone. Amazon DataZone ist ein Datenverwaltungsservice für die Katalogisierung, Erkennung, gemeinsame Nutzung und Verwaltung von Daten, die vor Ort und in AWS Quellen von Drittanbietern gespeichert sind. Das Muster umfasst Code-Artefakte, die Ihnen helfen, die auf Datennetzen basierende Datenlösungsinfrastruktur mithilfe von und bereitzustellen. AWS Cloud Development Kit (AWS CDK) AWS CloudFormation Dieses Muster ist für Cloud-Architekten und -Techniker vorgesehen. DevOps
Informationen zu den Zielen dieses Musters und zum Lösungsumfang finden Sie im Abschnitt Zusätzliche Informationen.
Voraussetzungen und Einschränkungen
Voraussetzungen
Mindestens zwei aktive Konten AWS-Konten: eines für das zentrale Governance-Konto und ein weiteres für das Mitgliedskonto
AWS Administratoranmeldedaten für das zentrale Governance-Konto in Ihrer Entwicklungsumgebung
AWS Command Line Interface (AWS CLI) wurde installiert, um Ihre über die AWS-Services Befehlszeile zu verwalten
Node.js und Node Package Manager (npm) wurden installiert
, um Anwendungen zu verwalten AWS CDK AWS CDK Das Toolkit wurde mithilfe von npm global in Ihrer Entwicklungsumgebung installiert, um Anwendungen zu synthetisieren und bereitzustellen AWS CDK
npm install -g aws-cdk
Python Version 3.12 ist in Ihrer Entwicklungsumgebung installiert
TypeScript in Ihrer Entwicklungsumgebung installiert oder global mit dem npm-Compiler installiert:
npm install -g typescript
Docker ist in Ihrer Entwicklungsumgebung installiert
Ein Versionskontrollsystem wie Git zur Pflege des Quellcodes der Lösung (empfohlen)
Eine integrierte Entwicklungsumgebung (IDE) oder ein Texteditor mit Unterstützung für Python und TypeScript (dringend empfohlen)
Einschränkungen
Die Lösung wurde nur auf Maschinen getestet, auf denen Linux oder macOS ausgeführt wird.
In der aktuellen Version unterstützt die Lösung standardmäßig nicht die Integration AWS IAM Identity Center von Amazon DataZone . Sie können es jedoch so konfigurieren, dass es diese Integration unterstützt.
Produktversionen
Python-versie 3.12
Architektur
Das folgende Diagramm zeigt eine Data-Mesh-Referenzarchitektur. Die Architektur basiert auf Amazon DataZone und verwendet Amazon Simple Storage Service (Amazon S3) und AWS Glue Data Catalog als Datenquellen. Die AWS-Services , die Sie mit Amazon DataZone in Ihrer Data Mesh-Implementierung verwenden, kann je nach den Anforderungen Ihres Unternehmens unterschiedlich sein.

In den Erzeugerkonten sind die Rohdaten entweder in ihrer aktuellen Form verbrauchstauglich oder sie werden durch Nutzung für den Verbrauch transformiert AWS Glue. Die technischen Metadaten der Daten werden in Amazon S3 gespeichert und mithilfe eines AWS Glue Datencrawlers ausgewertet. Die Datenqualität wird mithilfe von AWS Glue Data Quality gemessen. Die Quelldatenbank im Datenkatalog ist als Asset im DataZone Amazon-Katalog registriert. Der DataZone Amazon-Katalog wird mithilfe von DataZone Amazon-Datenquellenjobs im zentralen Governance-Konto gehostet.
Das zentrale Governance-Konto hostet die DataZone Amazon-Domain und das DataZone Amazon-Datenportal. Die AWS-Konten Datenproduzenten und -verbraucher sind mit der DataZone Amazon-Domain verknüpft. Die DataZone Amazon-Projekte der Datenproduzenten und -verbraucher sind unter den entsprechenden DataZone Amazon-Domaineinheiten organisiert.
Endbenutzer der Datenbestände melden sich mit ihren AWS Identity and Access Management (IAM) Anmeldeinformationen oder Single Sign-On (mit Integration über IAM Identity Center) beim DataZone Amazon-Datenportal an. Sie suchen, filtern und zeigen Asset-Informationen (z. B. Datenqualitätsinformationen oder geschäftliche und technische Metadaten) im DataZone Amazon-Datenkatalog an.
Nachdem ein Endbenutzer den gewünschten Datenbestand gefunden hat, verwendet er die DataZone Amazon-Abonnementfunktion, um Zugriff anzufordern. Der Dateneigentümer im Produzententeam erhält eine Benachrichtigung und bewertet die Abonnementanfrage im DataZone Amazon-Datenportal. Der Dateneigentümer genehmigt oder lehnt die Abonnementanfrage auf der Grundlage ihrer Gültigkeit ab.
Nachdem die Abonnementanfrage genehmigt und erfüllt wurde, wird im Kundenkonto für die folgenden Aktivitäten auf das Asset zugegriffen:
Entwicklung von KI/ML-Modellen mithilfe von Amazon AI SageMaker
Analytik und Berichterstattung mithilfe von Amazon Athena und Amazon QuickSight
Tools
AWS-Services
Amazon Athena ist ein interaktiver Abfrageservice, mit dem Sie Daten mithilfe von Standards SQL direkt in Amazon Simple Storage Service (Amazon S3) analysieren können.
AWS Cloud Development Kit (AWS CDK)ist ein Softwareentwicklungs-Framework, das Ihnen hilft, AWS Cloud Infrastruktur im Code zu definieren und bereitzustellen.
AWS CloudFormationhilft Ihnen dabei, AWS Ressourcen einzurichten, sie schnell und konsistent bereitzustellen und sie während ihres gesamten Lebenszyklus über AWS-Konten und zu verwalten AWS-Regionen.
Amazon DataZone ist ein Datenverwaltungsservice, der Sie dabei unterstützt, Daten zu katalogisieren, zu entdecken, gemeinsam zu nutzen und zu verwalten AWS, die vor Ort und in Quellen von Drittanbietern gespeichert sind.
Amazon QuickSight ist ein Business Intelligence (BI) -Service auf Cloud-Ebene, mit dem Sie Ihre Daten in einem einzigen Dashboard visualisieren, analysieren und melden können.
Amazon SageMaker AI ist ein verwalteter Service für maschinelles Lernen (ML), mit dem Sie ML-Modelle erstellen und trainieren und diese dann in einer produktionsbereiten, gehosteten Umgebung bereitstellen können.
Amazon Simple Storage Service (Amazon S3) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
Amazon Simple Queue Service (AmazonSQS) bietet eine sichere, dauerhafte und verfügbare gehostete Warteschlange, mit der Sie verteilte Softwaresysteme und -komponenten integrieren und entkoppeln können.
Amazon Simple Storage Service (Amazon S3) ist ein cloudbasierter Objektspeicherservice, der Sie beim Speichern, Schützen und Abrufen beliebiger Datenmengen unterstützt.
Code-Repository
Die Lösung ist im Repository GitHub data-mesh-datazone-cdk-cloudformation
Epen
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Klonen Sie das Repository | Um das Repository zu klonen, führen Sie den folgenden Befehl in Ihrer lokalen Entwicklungsumgebung (Linux oder macOS) aus:
| Cloud-Architekt, DevOps Ingenieur |
Erstellen Sie die Umgebung. | Führen Sie die folgenden Befehle aus, um die virtuelle Python-Umgebung zu erstellen:
| Cloud-Architekt, DevOps Ingenieur |
Bootstrap für das Konto. | Führen Sie den folgenden Befehl aus AWS CDK, um das zentrale Governance-Konto mithilfe von zu booten:
Melden Sie sich bei der an AWS Management Console, öffnen Sie die zentrale Governance-Kontokonsole und rufen Sie den Amazon-Ressourcennamen (ARN) der AWS CDK Ausführungsrolle ab. | Cloud-Architekt, DevOps Ingenieur |
Konstruieren Sie die | Um die
| Cloud-Architekt, Ingenieur DevOps |
Bestätigen Sie die Erstellung der Vorlage. | Stellen Sie sicher, dass die AWS CloudFormation Vorlagendatei am | Cloud-Architekt, DevOps Ingenieur |
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Ändern Sie die Konfiguration. | Ändern Sie in der
Lassen Sie die verbleibenden Parameter leer. | Cloud-Architekt, DevOps Ingenieur |
Aktualisieren Sie die DataZone Amazon-Glossarkonfiguration. | Verwenden Sie die folgende Beispielkonfiguration, um die DataZone Amazon-Glossarkonfiguration in der
| Cloud-Architekt, Ingenieur DevOps |
Aktualisieren Sie die Konfiguration des DataZone Amazon-Metadatenformulars. | Verwenden Sie die folgende Beispielkonfiguration
| Cloud-Architekt, DevOps Ingenieur |
Exportieren Sie die AWS Anmeldeinformationen. | Verwenden Sie das folgende Format, um AWS Anmeldeinformationen für die IAM Rolle mit Administratorrechten in Ihre Entwicklungsumgebung zu exportieren:
| Cloud-Architekt, DevOps Ingenieur |
Synthetisieren Sie die Vorlage. | Führen Sie den folgenden Befehl aus, um die AWS CloudFormation Vorlage zu synthetisieren:
| Cloud-Architekt, Ingenieur DevOps |
Stellen Sie die Lösung bereit. | Führen Sie den folgenden Befehl aus, um die Lösung bereitzustellen:
| Cloud-Architekt, DevOps Ingenieur |
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Stellen Sie die Vorlage bereit. | Stellen Sie die AWS CloudFormation Vorlage, die sich
| Cloud-Architekt, DevOps Ingenieur |
Aktualisieren Sie dieARNs. | Verwenden Sie den folgenden Code, um die Liste der AWS CloudFormation StackSet Ausführungsrollen ARNs für die Mitgliedskonten zu aktualisieren:
| Cloud-Architekt, DevOps Ingenieur |
Synthetisieren und bereitstellen. | Führen Sie die folgenden Befehle aus, um die AWS CloudFormation Vorlage zu synthetisieren und die Lösung bereitzustellen:
| Cloud-Architekt, Ingenieur DevOps |
Ordnen Sie das Mitgliedskonto zu. | Gehen Sie wie folgt vor, um das Mitgliedskonto mit dem zentralen Governance-Konto zu verknüpfen:
| Cloud-Architekt, Ingenieur DevOps |
Aktualisieren Sie die Parameter. | Verwenden Sie das folgende Format, um die für das Mitgliedskonto spezifischen Parameter in der Konfigurationsdatei unter zu
| Cloud-Architekt, Ingenieur DevOps |
Synthetisieren Sie die Vorlage und stellen Sie sie bereit. | Führen Sie die folgenden Befehle aus, um die AWS CloudFormation Vorlage zu synthetisieren und die Lösung bereitzustellen:
| Cloud-Architekt, Ingenieur DevOps |
Mitgliedskonten hinzufügen. | Um zusätzliche Mitgliedskonten in der Datenlösung zu erstellen und zu konfigurieren, wiederholen Sie die vorherigen Schritte für jedes Mitgliedskonto. Diese Lösung unterscheidet nicht zwischen Datenproduzenten und Verbrauchern. | Cloud-Architekt, DevOps Ingenieur |
Aufgabe | Beschreibung | Erforderliche Fähigkeiten |
---|---|---|
Trennen Sie die Zuordnung der Mitgliedskonten. | Gehen Sie wie folgt vor, um die Konten zu trennen:
| Cloud-Architekt, Ingenieur DevOps |
Löschen Sie die Stack-Instanzen. | Gehen Sie wie folgt vor, um die AWS CloudFormation Stack-Instances zu löschen:
| Cloud-Architekt, Ingenieur DevOps |
Zerstöre alle Ressourcen. | Um Ressourcen zu vernichten, implementieren Sie die folgenden Schritte in Ihrer lokalen Entwicklungsumgebung (Linux oder macOS):
| Cloud-Architekt, DevOps Ingenieur |
Zugehörige Ressourcen
Zusätzliche Informationen
Ziele
Durch die Implementierung dieses Musters wird Folgendes erreicht:
Dezentrales Eigentum an Daten ‒ Verlagern Sie die Datenverantwortung von einem zentralen Team auf Teams, die die Quellsysteme, Geschäftsbereiche oder Anwendungsfälle Ihres Unternehmens repräsentieren.
Produktdenken ‒ Führen Sie bei der Betrachtung der Datenbestände in Ihrem Unternehmen eine produktorientierte Denkweise ein, die Kunden, den Markt und andere Faktoren einbezieht.
Föderierte Verwaltung ‒ Verbessern Sie die Sicherheitsvorkehrungen, Kontrollen und die Einhaltung von Vorschriften für alle Datenprodukte Ihres Unternehmens.
Support für mehrere Konten und Projekte ‒ Unterstützen Sie den effizienten und sicheren Datenaustausch und die Zusammenarbeit zwischen den Geschäftsbereichen oder Projekten Ihres Unternehmens.
Zentralisierte Überwachung und Benachrichtigungen ‒ Überwachen Sie die Cloud-Ressourcen Ihres Datennetzes mithilfe von Amazon und benachrichtigen Sie Benutzer CloudWatch, wenn ein neues Mitgliedskonto verknüpft wird.
Skalierbarkeit und Erweiterbarkeit ‒ Fügen Sie dem Data Mesh neue Anwendungsfälle hinzu, während sich Ihr Unternehmen weiterentwickelt.
Umfang der Lösung
Wenn Sie diese Lösung verwenden, können Sie klein anfangen und sie dann skalieren, wenn Sie auf Ihrem Weg zum Data Mesh vorankommen. Wenn ein Mitgliedskonto die Datenlösung verwendet, enthält sie häufig Kontokonfigurationen, die für die Organisation, das Projekt oder die Geschäftseinheit spezifisch sind. Diese Lösung berücksichtigt diese unterschiedlichen AWS-Konto Konfigurationen, indem sie die folgenden Funktionen unterstützt:
AWSGlue Data Catalog als Datenquelle für Amazon DataZone
Verwaltung der DataZone Amazon-Datendomäne und des zugehörigen Datenportals
Verwaltung des Hinzufügens von Mitgliedskonten zur auf Datennetzen basierenden Datenlösung
Verwaltung von DataZone Amazon-Projekten und -Umgebungen
Verwaltung von DataZone Amazon-Glossaren und Metadatenformularen
Verwaltung von IAM Rollen, die den Benutzern der Data Mesh-basierten Datenlösung entsprechen
Benachrichtigung der Benutzer einer auf Datennetzen basierenden Datenlösung
Überwachung der bereitgestellten Cloud-Infrastruktur
Diese Lösung verwendet AWS CDK und implementiert AWS CloudFormation die Cloud-Infrastruktur. Sie macht AWS CloudFormation früher Folgendes:
Definieren und implementieren Sie Cloud-Ressourcen auf einer niedrigeren Abstraktionsebene.
Stellen Sie Cloud-Ressourcen aus dem AWS Management Console bereit. Mit diesem Ansatz können Sie eine Infrastruktur ohne Entwicklungsumgebung bereitstellen.
Die Data-Mesh-Lösung verwendet AWS CDK , um Ressourcen auf einer höheren Abstraktionsebene zu definieren. Dadurch bietet die Lösung einen entkoppelten, modularen und skalierbaren Ansatz, bei dem das entsprechende Tool für die Bereitstellung der Cloud-Ressourcen ausgewählt wird.
Nächste Schritte
Sie können sich an AWSExperten
Der modulare Charakter dieser Lösung unterstützt den Aufbau von Datenmanagementlösungen mit unterschiedlichen Architekturen, wie Data Fabric und Data Lakes. Darüber hinaus können Sie die Lösung je nach den Anforderungen Ihres Unternehmens auf andere DataZone Amazon-Datenquellen ausdehnen.