Migrieren von Daten in die AWS Cloud mithilfe von Starburst - AWS Prescriptive Guidance

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Migrieren von Daten in die AWS Cloud mithilfe von Starburst

Erstellt von Antony Prasad Thevaraj (AWS), Shaun Van Staden (Starburst) undsh Veer Boli (AWS)

Umgebung: Produktion

Technologien: Analytik; Data Lakes; Datenbanken

Workload: Alle anderen Workloads

AWS-Services: Amazon EKS

Übersicht

Starburst trägt dazu bei, Ihre Datenmigration zu Amazon Web Services (AWS) zu beschleunigen, indem es eine Enterprise-Abfrage-Engine bereitstellt, die vorhandene Datenquellen in einem einzigen Zugriffspunkt zusammenfasst. Sie können Analysen für mehrere Datenquellen ausführen, um wertvolle Erkenntnisse zu erhalten, bevor Sie Migrationspläne abschließen. Ohne die business-as-usual Analyse zu unterbrechen, können Sie die Daten mithilfe der Starburst-Engine oder einer dedizierten ETL-Anwendung (Extract, Transform, Load) migrieren.

Voraussetzungen und Einschränkungen

Voraussetzungen

  • Ein aktives AWS-Konto

  • Eine Virtual Private Cloud (VPC)

  • Ein Amazon Elastic Kubernetes Service (Amazon EKS)-Cluster

  • Eine Auto Scaling-Gruppe von Amazon Elastic Compute Cloud (Amazon EC2)

  • Eine Liste der aktuellen System-Workloads, die migriert werden müssen

  • Netzwerkkonnektivität von AWS zu Ihrer On-Premises-Umgebung

Architektur

Referenzarchitektur

Das folgende allgemeine Architekturdiagramm zeigt die typische Bereitstellung von Starburst Enterprise in der AWS Cloud:

  1. Der Starburst Enterprise-Cluster wird in Ihrem AWS-Konto ausgeführt.

  2. Ein Benutzer authentifiziert sich mithilfe des Lightweight Directory Access Protocol (LDAP) oder der Open Authorization (OAuth) und interagiert direkt mit dem Starburst-Cluster.

  3. Starburst kann eine Verbindung zu mehreren AWS-Datenquellen herstellen, z. B. AWS Glue, Amazon Simple Storage Service (Amazon S3), Amazon Relational Database Service (Amazon RDS) und Amazon Redshift. Starburst bietet Verbundabfragefunktionen für alle Datenquellen in der AWS Cloud, On-Premises oder in anderen Cloud-Umgebungen.

  4. Sie starten Starburst Enterprise in einem Amazon-EKS-Cluster mithilfe von Helm-Diagrammen.

  5. Starburst Enterprise verwendet Amazon EC2-Auto Scaling-Gruppen und Amazon EC2-Spot-Instances zur Optimierung der Infrastruktur.

  6. Starburst Enterprise stellt eine direkte Verbindung zu Ihren vorhandenen On-Premises-Datenquellen her, um Daten in Echtzeit zu lesen. Wenn Sie über eine vorhandene Starburst Enterprise-Bereitstellung in dieser Umgebung verfügen, können Sie Ihren neuen Starburst-Cluster in der AWS Cloud direkt mit diesem vorhandenen Cluster verbinden.

High-Level-Architekturdiagramm der Starburst Enterprise-Bereitstellung in der AWS Cloud

Beachten Sie bitte Folgendes:

  • Starburst ist keine Datenvirtualisierungsplattform. Es ist eine SQL-basierte Abfrage-Engine für massiv parallele Verarbeitung (Massively Parallel Processing, MPP), die die Grundlage für eine allgemeine Datengitterstrategie für Analysen bildet.

  • Wenn Starburst im Rahmen einer Migration bereitgestellt wird, verfügt es über direkte Konnektivität zur vorhandenen On-Premises-Infrastruktur.

  • Starburst bietet mehrere integrierte Unternehmens- und Open-Source-Konnektoren, die die Konnektivität zu einer Vielzahl von Legacy-Systemen erleichtern. Eine vollständige Liste der Connectors und ihrer Funktionen finden Sie unter Connectors im Starburst Enterprise-Benutzerhandbuch.

  • Starburst kann Daten in Echtzeit aus On-Premises-Datenquellen abfragen. Dadurch werden Unterbrechungen des regulären Geschäftsbetriebs während der Migration von Daten verhindert.

  • Wenn Sie von einer vorhandenen On-Premises-Starburst-Enterprise-Bereitstellung migrieren, können Sie einen speziellen Konnektor, Starburst Stargate, verwenden, um Ihren Starburst-Enterprise-Cluster in AWS direkt mit Ihrem On-Premises-Cluster zu verbinden. Dies bietet zusätzliche Leistungsvorteile, wenn Geschäftsbenutzer und Datenanalysten Abfragen von der AWS Cloud in Ihre On-Premises-Umgebung verbinden.

Übersicht über den Prozess auf hoher Ebene

Sie können Datenmigrationsprojekte beschleunigen, indem Sie Starburst verwenden, da Starburst vor der Migration Einblicke in alle Ihre Daten ermöglicht. Die folgende Abbildung zeigt den typischen Prozess für die Migration von Daten mithilfe von Starburst.

Prozessablauf für die Migration von Daten in die AWS Cloud mithilfe von Starburst

Rollen

Die folgenden Rollen sind in der Regel erforderlich, um eine Migration mit Starburst abzuschließen:

  • Cloud-Administrator – Verantwortlich für die Bereitstellung von Cloud-Ressourcen für die Ausführung der Starburst-Enterprise-Anwendung

  • Starburst-Administrator – verantwortlich für die Installation, Konfiguration, Verwaltung und Unterstützung der Starburst-Anwendung

  • Dateningenieur – verantwortlich für:

    • Migrieren der Legacy-Daten in die Cloud

    • Erstellen von semantischen Ansichten zur Unterstützung von Analysen

  • Lösungs- oder Systemeigentümer – verantwortlich für die Implementierung der Gesamtlösung

Tools

AWS-Services

  • Amazon EC2 – Amazon Elastic Compute Cloud (Amazon EC2) bietet skalierbare Rechenkapazität in der AWS Cloud.

  • Amazon EKS – Amazon Elastic Kubernetes Service (Amazon EKS) ist ein verwalteter Service für die Ausführung von Kubernetes in AWS, ohne dass Sie Ihre eigene Kubernetes-Steuerebene einrichten oder warten müssen. Kubernetes ist ein Open-Source-System zur Automatisierung der Bereitstellung, Skalierung und Verwaltung von Anwendungen in Containern.

Andere Tools

  • Helm – Helm ist ein Paketmanager für Kubernetes, mit dem Sie Anwendungen auf Ihrem Kubernetes-Cluster installieren und verwalten können.

  • Starburst Enterprise – Starburst Enterprise ist eine SQL-basierte Abfrage-Engine für massiv parallele Verarbeitung (Massively Parallel Processing, MPP), die die Grundlage für eine allgemeine Datengitterstrategie für Analysen bildet.

  • Starburst Stargate – Starburst Stargate verknüpft Kataloge und Datenquellen in einer Starburst Enterprise-Umgebung, z. B. einen Cluster in einem On-Premises-Rechenzentrum, mit den Katalogen und Datenquellen in einer anderen Starburst Enterprise-Umgebung, z. B. einem Cluster in der AWS Cloud.

Polen

AufgabeBeschreibungErforderliche Fähigkeiten
Identifizieren und priorisieren Sie Ihre Daten.

Identifizieren Sie die Daten, die Sie verschieben möchten. Große, On-Premises-System können Kerndaten enthalten, die Sie zusammen mit Daten migrieren möchten, die Sie nicht verschieben möchten oder die aus Compliance-Gründen nicht verschoben werden können. Wenn Sie mit einem Datenbestand beginnen, können Sie priorisieren, auf welche Daten Sie zuerst abzielen sollten. Weitere Informationen finden Sie unter Erste Schritte mit der automatisierten Portfolioerkennung.

Dateningenieur, DBA
Erkunden, inventarisieren und sichern Sie Ihre Daten.

Überprüfen Sie die Qualität, Menge und Relevanz der Daten für Ihren Anwendungsfall. Sichern oder erstellen Sie nach Bedarf einen Snapshot der Daten und schließen Sie die Zielumgebung für die Daten ab.

Dateningenieur, DBA
AufgabeBeschreibungErforderliche Fähigkeiten
Konfigurieren Sie Starburst Enterprise in der AWS Cloud.

Richten Sie Starburst Enterprise in einem verwalteten Amazon-EKS-Cluster ein, während Daten katalogisiert werden. Weitere Informationen finden Sie unter Bereitstellen mit Kubernetes in der Starburst-Enterprise-Referenzdokumentation. Dies ermöglicht business-as-usual Analysen, während die Datenmigration läuft.

AWS-Administrator, App-Entwickler
Verbinden Sie Starburst mit den Datenquellen.

Nachdem Sie die Daten identifiziert und Starburst Enterprise eingerichtet haben, verbinden Sie Starburst mit den Datenquellen. Starburst liest Daten direkt aus der Datenquelle als SQL-Abfrage. Weitere Informationen finden Sie in der Starburst Enterprise-Referenzdokumentation.

AWS-Administrator, App-Entwickler
AufgabeBeschreibungErforderliche Fähigkeiten
Erstellen und führen Sie die ETL-Pipelines aus.

Starten Sie den Datenmigrationsprozess. Diese Aktivität kann gleichzeitig mit Analysen erfolgen business-as-usual . Für die Migration können Sie ein Drittanbieterprodukt oder Starburst verwenden. Starburst ist in der Lage, sowohl Lese- als auch Schreibdaten über verschiedene Quellen hinweg zu lesen. Weitere Informationen finden Sie in der Starburst Enterprise-Referenzdokumentation.

Dateningenieur
Validieren Sie die Daten.

Nachdem die Daten migriert wurden, validieren Sie die Daten, um sicherzustellen, dass alle erforderlichen Daten verschoben wurden und intakt sind.

Dateningenieur, DevOps Techniker
AufgabeBeschreibungErforderliche Fähigkeiten
Überschneiden Sie die Daten.

Nachdem die Datenmigration und -validierung abgeschlossen sind, können Sie die Daten abschneiden. Dazu müssen Sie die Datenverbindungslinks in Starburst ändern. Anstatt auf die On-Premises-Quellen zu verweisen, zeigen Sie auf die neuen Cloud-Quellen und aktualisieren die semantischen Ansichten. Weitere Informationen finden Sie unter Connectors in der Starburst Enterprise-Referenzdokumentation.

Dateningenieur, Cutover-Verantwortlicher
Führen Sie ein Rollout für Benutzer durch.

Datenkonsumenten beginnen mit der Arbeit an den migrierten Datenquellen. Dieser Prozess ist für die Analyse-Endbenutzer unsichtbar.

Cutover-Verantwortlicher, Dateningenieur

Zugehörige Ressourcen

AWS Marketplace

Starburst-Dokumentation

Andere AWS-Dokumentation