Amazon-Redshift-Konzepte und Datenverarbeitungsablauf - Amazon Redshift

Amazon-Redshift-Konzepte und Datenverarbeitungsablauf

In den folgenden Abschnitten finden Sie wichtige Konzepte für Amazon Redshift sowie eine Beschreibung und ein Diagramm des typischen Amazon-Redshift-Datenverarbeitungsablaufs:

Amazon-Redshift-Konzepte

Im Folgenden sind einige wichtige Amazon-Redshift-Konzepte aufgeführt:

  • Cluster – Die zentrale Infrastrukturkomponente eines Amazon-Redshift-Data-Warehouse ist ein Cluster.

    Ein Cluster besteht aus einem oder mehreren Datenverarbeitungsknoten. Die Datenverarbeitungsknoten führen den kompilierten Code aus.

    Wird ein Cluster mit zwei oder mehr Datenverarbeitungsknoten bereitgestellt, koordiniert ein zusätzlicher Führungsknoten die Datenverarbeitungsknoten. Der Führungsknoten übernimmt die externe Kommunikation mit Anwendungen, wie Business-Intelligence-Tools und Abfrage-Editoren. Ihre Client-Anwendung interagiert nur mit dem Führungsknoten direkt. Die Datenverarbeitungsknoten sind für externe Anwendungen transparent.

  • Datenbank – Ein Cluster enthält eine oder mehrere Datenbanken.

    Benutzerdaten werden in einer oder mehreren Datenbanken auf den Datenverarbeitungsknoten gespeichert. Ihr SQL-Client kommuniziert mit dem Führungsknoten, der wiederum die Abfrageausführung mit den Datenverarbeitungsknoten koordiniert. Weitere Informationen zu Datenverarbeitungs- und Führungsknoten finden Sie unter Data-Warehouse-Systemarchitektur. Innerhalb einer Datenbank sind Benutzerdaten in einem Schema oder mehreren Schemata organisiert.

    Amazon Redshift ist ein relationales Datenbankmanagementsystem (RDBMS) und ist mit anderen RDBMS-Anwendungen kompatibel. Amazon Redshift stellt dieselben Funktionen wie ein typisches RDBMS bereit, einschließlich Funktionen zur Online-Transaktionsverarbeitung (Online Transaction Processing, OLTP), wie das Einfügen und Löschen von Daten. Amazon Redshift ist auch für leistungsfähige Batchanalysen und Berichterstattung von Datensätzen optimiert.

Im Folgenden finden Sie eine Beschreibung des typischen Datenverarbeitungsablaufs in Amazon Redshift sowie Beschreibungen verschiedener Teile im Ablauf. Weitere Informationen zur Amazon-Redshift-Systemarchitektur finden Sie unter Architektur des Data-Warehouse-Systems.

Typischer Datenverarbeitungsablauf für Amazon Redshift

Das folgende Diagramm zeigt einen typischen Datenverarbeitungsablauf in Amazon Redshift.

Ein Amazon-Redshift-Data-Warehouse ist eine Abfrage- und Verwaltungssystem der Enterprise-Klasse für relationale Datenbanken. Amazon Redshift unterstützt Client-Verbindungen mit vielen Arten von Anwendungen, einschließlich Business Intelligence (BI), Berichterstellung, Daten und Analysetools. Bei Analyseabfragen werden große Datenmengen in mehrphasigen Operationen abgerufen, verglichen und bewertet, um ein Endergebnis zurückzugeben.

In der Ebene der Datenerfassung laden verschiedene Arten von Datenquellen kontinuierlich strukturierte, halbstrukturierte oder unstrukturierte Daten in die Datenspeicher-Ebene hoch. Dieser Datenspeicherbereich dient als Staging-Bereich, der Daten in verschiedenen Zuständen der Nutzungsbereitschaft speichert. Ein Beispiel für einen solchen Speicher ist ein Amazon Simple Storage Service (Amazon S3)-Bucket.

In der optionalen Ebene Datenverarbeitung durchlaufen die Quelldaten die Vorverarbeitung, Validierung und Transformation über Extract, Transform, Load (ETL)-oder Extract, Load, Transform (ELT)-Pipelines. Diese Rohdatensätze werden dann mithilfe von ETL-Operationen verfeinert. Ein Beispiel für eine ETL-Engine ist AWS Glue.

In der Ebene Datennutzung werden Daten in Ihren Amazon-Redshift-Cluster geladen, wo Sie Analyse-Workloads ausführen können.

Daten können auch wie folgt für Analyse-Workloads genutzt werden:

  • Verwenden Sie Datashares, um Live-Daten für Lesezwecke relativ sicher und einfach für Amazon-Redshift-Cluster freizugeben. Sie können Daten auf verschiedenen Ebenen freigeben, z. B. Datenbanken, Schemata, Tabellen, Ansichten (einschließlich regulärer Ansichten, Ansichten mit späterer Bindung und materialisierter Ansichten) sowie benutzerdefinierten SQL-Funktionen (UDFs).

    Weitere Informationen zur Datenfreigabe finden Sie unter Erste Schritte zum Abrufen von Daten in anderen Amazon-Redshift-Clustern.

  • Verwenden Sie Amazon Redshift Spectrum, um Daten in Amazon-S3-Dateien abzufragen, ohne die Daten in Amazon-Redshift-Tabellen laden zu müssen. Amazon Redshift bietet SQL-Funktionen für die schnelle Online-Analyseverarbeitung (OLAP) von sehr großen Datensätzen, die sowohl in Amazon-Redshift-Clustern als auch Amazon-S3-Data-Lakes gespeichert sind.

    Weitere Informationen zu Redshift Spectrum finden Sie unter Erste Schritte zum Abfragen Ihres Data Lake.

  • Verwenden Sie eine Verbundabfrage, um Daten aus einer relationalen Datenbank, z. B. Amazon Relational Database Service (Amazon RDS), Amazon Aurora oder Amazon S3, mit Daten in Ihrer Amazon-Redshift-Datenbank zu verknüpfen. Sie können mit Amazon Redshift Betriebsdaten direkt abfragen (ohne sie zu verschieben), Transformationen anwenden und Daten in Ihre Amazon-Redshift-Tabellen einfügen.

    Weitere Informationen zu Verbundabfragen finden Sie unter Erste Schritte zum Abfragen von Daten auf Remote-Datenquellen.

  • Machine Learning (ML) von Amazon Redshift erstellt Modelle anhand von Daten, die Sie bereitgestellt haben, und Metadaten, die mit Dateneingaben verknüpft sind. Diese Modelle erfassen Muster in den Eingabedaten. Sie können diese Modelle dann verwenden, um Prognosen für neue Eingabedaten zu generieren. Amazon Redshift kann zusammen mit Amazon SageMaker Autopilot verwendet werden, um automatisch das beste Modell abzurufen und die Prognosefunktion in Amazon Redshift verfügbar zu machen.

    Weitere Informationen zu den ML-Funktionen von Amazon Redshift finden Sie unter Erste Schritte mit dem Training von Machine-Learning-Modellen mit Amazon-Redshift-Daten.