Datenarchitektur - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenarchitektur

Entwerfen und entwickeln Sie eine fit-for-purpose Daten- und Analysearchitektur.

Eine gut konzipierte Daten- und Analysearchitektur ist unerlässlich, um umsetzbare Erkenntnisse zu gewinnen. Durch den Entwurf und die Weiterentwicklung einer fit-for-purpose Daten- und Analysearchitektur reduzieren Unternehmen Komplexität, Kosten und technischen Aufwand und gewinnen gleichzeitig wertvolle Erkenntnisse aus ihren ständig wachsenden Datenmengen. Durch die Ausrichtung an den AWS CAF-Prinzipien können Unternehmen eine Datenarchitektur schaffen, die sich nahtlos in ihre bestehende Plattform integrieren lässt. Diese Ausrichtung versetzt Unternehmen in die Lage, die Vorteile moderner Datenverarbeitungs- und Analysetechnologien zu nutzen.

Die Daten- und Analysearchitektur ist die Blaupause für die Fähigkeit eines Unternehmens, Wert aus Daten zu ziehen. Sie hilft dem Unternehmen, neue Geschäftserkenntnisse zu gewinnen, und ist ein Katalysator für das Geschäftswachstum. Um den Geschäftsanforderungen gerecht zu werden, sollte eine moderne Datenarchitektur auf kurz- und langfristige Geschäftsziele ausgerichtet sein und auf die kulturellen und kontextuellen Anforderungen des Unternehmens zugeschnitten sein. In der heutigen Welt basieren die erfolgreiche Implementierung und Einführung einer Daten- und Analysearchitektur auf dem Prinzip, dem richtigen Verbraucher die richtigen Daten zur richtigen Zeit zur Verfügung zu stellen.

Dies wird erreicht, indem geplant und organisiert wird, wie die Datenbestände eines Unternehmens physisch oder logisch modelliert werden, wie die Daten gesichert werden und wie diese Datenmodelle miteinander interagieren, um Geschäftsprobleme zu lösen, unbekannte Muster abzuleiten und Erkenntnisse zu gewinnen.

Starten

Definieren Sie übergreifende Fähigkeiten

Im aktuellen Geschäftsumfeld ist es für die moderne Datenanalyseplattform von entscheidender Bedeutung, aus Daten Nutzen zu ziehen, um verschiedene Bereiche im Unternehmen zu unterstützen. Anstatt einen einzigen Datenarchitekturansatz zu verfolgen, sollte eine moderne Datenarchitektur Toolsets und Muster beinhalten, die speziell für bestimmte Anwendungsfälle entwickelt und optimiert wurden. Die Architektur sollte sich weiterentwickeln können und grundlegende Bausteine wie skalierbare Data Lakes, speziell entwickelte Analysedienste, einheitlichen Datenzugriff und einheitliche Verwaltung umfassen.

Organisieren Sie Datenzonen

Die Art und Weise, wie die Daten für einen schnellen und einfachen Zugriff organisiert und gespeichert werden, ist ein entscheidender Aspekt der Datenarchitektur. Dies kann durch die Einrichtung benutzerdefinierter Datenzonen innerhalb eines Data Lake erreicht werden. Die Datenzonen sind wie folgt kategorisiert:

  • Rohdaten, die aus heterogenen Quellen gesammelt wurden

  • Kuratierte und transformierte Daten zur Unterstützung der analytischen Anforderungen der einzelnen Bereiche

  • Verwenden Sie fallbezogene oder produktbasierte Data Marts für Berichtsanforderungen

  • Extern offengelegte Daten mit Sicherheits- und Compliance-Kontrollen

Sorgen Sie für Agilität und Demokratisierung von Daten

Die Effektivität einer Analyseplattform hängt von der Geschwindigkeit ab, mit der Daten bereitgestellt werden und wie schnell die bereitgestellten Daten für den Verbrauch demokratisiert werden. Agilität bei der Datenbereitstellung wird durch die Fähigkeit der Datenarchitektur erreicht, Daten je nach Anwendungsfall auf unterschiedliche Weise zu beschaffen und zu verarbeiten — z. B. in Echtzeit, nahezu in Echtzeit, Batch, Mikrobatch oder Hybrid. Die Datendemokratisierung wird durch die Definition von Workflows für den Datenaustausch und die Zugriffskontrolle erreicht, die von Datenverwaltern überwacht werden. Die Implementierung eines Datenmarktplatzes ist einer der Voraussetzungen für die Demokratisierung von Daten.

Definieren Sie eine sichere Datenbereitstellung

Eine moderne Datenarchitektur ist eine Sicherheitsfestung gegenüber der Außenwelt, ermöglicht aber Mitarbeitern oder Datennutzern einen einfachen Zugriff, je nach ihren beruflichen Funktionen, und hält sich an Compliance-Einschränkungen wie den Health Insurance Portability and Accountability Act (HIPAA), personenbezogene Daten (PII), die Allgemeine Datenschutzverordnung (GDPR) usw. Dies wird durch Methoden der rollenbasierten Zugriffskontrolle (RBAC) und der tagbasierten Zugriffskontrolle (TBAC) erreicht. Bei AWS aktivierter Option werden Tags zur Steuerung des Zugriffs auf Daten verwendet, um die Verwaltung der Zugriffskontrolle zu vereinfachen. Halten Sie sich dabei an die Prinzipien, die in der Sicherheitsperspektive AWS von CAF dargelegt sind.

Achten Sie auf Kosteneffektivität

Herkömmliche Data Warehouses bieten eine enge Kopplung von Datenverarbeitung und Speicher mit hohen Kosten für die Ressourcennutzung. Eine moderne Architektur entkoppelt Datenverarbeitung und Speicher und implementiert Tiered Storage auf der Grundlage des Datenlebenszyklus. Beispielsweise können Sie Amazon Simple Storage Service (Amazon S3) verwenden AWS, um die Kosten zu kontrollieren und den Datenspeicher von der Datenverarbeitung zu entkoppeln. Amazon S3 S3-Speicherklassen wurden speziell dafür entwickelt, Speicherplatz mit den niedrigsten Kosten für unterschiedliche Zugriffsmuster bereitzustellen. Darüber hinaus sind AWS Computing-Tools (wie Amazon Athena AWS Glue, Amazon Redshift und Amazon SageMaker Runtime) serverlos, sodass Sie sich nicht um die Infrastruktur kümmern müssen und nur für das bezahlen, was Sie tatsächlich nutzen. 

Vorwärts

Die moderne Datenarchitektur könnte weiter verbessert werden, um die Bandbreite der Datennutzung zu erhöhen — von Standardanalysen, die Geschäfts- und Betriebsfunktionen unterstützen, bis hin zu komplexeren Funktionen, die Prognosen und Erkenntnisse unterstützen — und so zu einer schnelleren Entscheidungsfindung beitragen. Um dies zu erreichen, unterstützt die Architektur die in den folgenden Abschnitten beschriebenen Funktionen.

Verstehen Sie Feature-Engineering

Feature Engineering nutzt maschinelles Lernen und beinhaltet die Einrichtung von Feature-Stores oder Feature Marts. Data-Science-Teams erstellen neue Funktionen (abgeleitete Attribute) sowohl für überwachte als auch für unbeaufsichtigte Lernmodelle und speichern sie in Feature-Marts, um die Transformation zu vereinfachen und die Datengenauigkeit zu verbessern. Unternehmen können die Funktionen in mehreren Analysemodellen wiederverwenden, was die Markteinführung beschleunigt.

Planen Sie die Denormalisierung von Datensätzen

Durch die Erstellung denormalisierter Datensätze oder Data Marts könnten die Datensätze für Geschäftsanwender erheblich vereinfacht werden, da die benötigten Daten an einem einzigen Ort leicht verfügbar sind und die Analysegeschwindigkeit erhöht wird. Bei sorgfältiger Gestaltung könnte ein Datensatz mehrere Nutzungsmodelle unterstützen und den gesamten Entwicklungszyklus verkürzen. Eine effektive Verwaltung von denormalisierten Datensätzen ist auch aus zwei Gründen wichtig. Durch die Implementierung denormalisierter Daten könnte eine große Anzahl redundanter Datensätze entstehen, deren Verwaltung in großem Maßstab zu einer Herausforderung werden könnte. Darüber hinaus könnte es immer schwieriger werden, diese Datensätze wiederzuverwenden, wenn sie nicht korrekt modelliert werden. 

Portabilität und Skalierbarkeit des Designs

Große Unternehmen haben selten all ihre Anwendungen und Benutzer auf einer einzigen Datenplattform. Ihre Anwendungen und Datenspeicher sind in der Regel auf ältere lokale und Cloud-Plattformen verteilt, was es für Analyseteams schwierig macht, Daten zu mischen und zusammenzuführen. Wir empfehlen, Daten auf der Grundlage von Merkmalen wie Domäne, Geografie, geschäftlichen Anwendungsfällen usw. zu containerisieren. Diese Containerisierung erhöht die Portabilität zwischen verschiedenen Plattformen und Anwendungen und unterstützt eine effektivere Nutzung. Durch die Segmentierung von Daten in Container und deren Bereitstellung können Sie Ihre APIs Datenarchitektur einfacher skalieren. Es ermöglicht einen hybriden end-to-end Datenfluss und trägt dazu bei, dass lokale und cloudbasierte Anwendungen reibungslos funktionieren.

Excel

Da sich eine moderne Analysearchitektur innerhalb eines Unternehmens weiterentwickelt, ist es wichtig, diesen Wandel durch die Einführung wiederverwendbarer Konzepte zu bewältigen. Diese Konzepte erhöhen die Haltbarkeit und Akzeptanz und halten gleichzeitig die Kosten unter Kontrolle. Einige der zu berücksichtigenden Konzepte werden in den folgenden Abschnitten erörtert.

Entwerfen Sie ein konfigurierbares Framework

Organizations erstellen häufig mehrere, komplexe Modelle, um ihren individuellen Geschäftsanforderungen gerecht zu werden. Diese Modelle erfordern die Erstellung mehrerer Daten-Pipelines und technischer Funktionen. Im Laufe der Zeit führt dies zu erheblicher Redundanz und erhöht die Betriebskosten. Die Schaffung eines Frameworks, das eine Reihe von parametergesteuerten, konfigurierbaren Basismodellen umfasst, reduziert die Entwicklungszeit und die Betriebskosten. Die Analyse-Engine kann diese konfigurierbaren Modelle implementieren, um das gewünschte Ergebnis zu erzielen.

Planen Sie den Aufbau einer einheitlichen Analyse-Engine

Geschäftsprobleme sind einzigartig und erfordern häufig maßgeschneiderte Technologien, um den Anforderungen gerecht zu werden, was zu mehreren Analyse-Engines in einem Unternehmen führt. Der Entwurf und die Entwicklung einer einheitlichen KI-basierten Analyse-Engine-Schnittstelle, die mehrere Programmierparadigmen unterstützen kann, vereinfacht die Nutzung und senkt die Kosten.

Definieren DataOps

Die meisten Datenexperten verbringen viel Zeit damit, Datenoperationen durchzuführen, z. B. die richtigen Daten zu finden, zu transformieren, zu modellieren usw. Agile Datenoperationen (DataOps) können die Datenarchitektur erheblich verbessern, indem sie die Silos von Dateningenieuren, Datenwissenschaftlern, Datenbesitzern und Analysten aufbrechen. DataOps ermöglicht eine bessere Kommunikation zwischen Teams, reduziert die Zykluszeit und gewährleistet eine hohe Datenqualität. Daten- und Analysearchitekturen wurden im Laufe der Zeit aufgrund sich ändernder Geschäftsanforderungen und technologischer Fortschritte zahlreichen Veränderungen unterzogen. Ein Unternehmen muss bestrebt sein, eine Daten- und Analysearchitektur zu entwickeln, zu implementieren und aufrechtzuerhalten, die sich im Laufe der Zeit weiterentwickelt und ihr Geschäft unterstützt.