Amazon RDS Zero-ETL-Integrationen - Amazon Relational Database Service

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Amazon RDS Zero-ETL-Integrationen

Es handelt sich um eine vollständig verwaltete Lösung, mit der Sie Transaktionsdaten in Ihrem Analyseziel verfügbar machen können, nachdem sie in einen der RDS-Datenbank geschrieben wurden. Beim Extrahieren, Transformieren und Laden (ETL) werden Daten aus mehreren Quellen in einem großen, zentralen Data Warehouse kombiniert.

Eine Zero-ETL-Integration macht die Daten in Ihrem in Ihrer RDS-Datenbank in Amazon Redshift oder einem Amazon SageMaker AI Lakehouse nahezu in Echtzeit verfügbar. Sobald sich diese Daten im Ziel-Data Warehouse oder Data Lake befinden, können Sie Ihre Analyse-, ML- und KI-Workloads mithilfe der integrierten Funktionen wie maschinelles Lernen, materialisierte Ansichten, gemeinsame Nutzung von Daten, Verbundzugriff auf mehrere Datenspeicher und Data Lakes sowie Integrationen mit Amazon SageMaker AI und anderen unterstützen. QuickSight AWS-Services

Um eine Zero-ETL-Integration zu erstellen, geben Sie einen für die RDS-Datenbank als Quelle und ein unterstütztes Data Warehouse oder Lakehouse als Ziel an. Die Integration repliziert Daten aus der Quelldatenbank in das Ziel-Data Warehouse oder Lakehouse.

Das folgende Diagramm veranschaulicht diese Funktionalität für die Zero-ETL-Integration mit Amazon Redshift:

Eine Null-ETL-Integration

Das folgende Diagramm veranschaulicht diese Funktionalität für die Zero-ETL-Integration mit einem Lakehouse: Amazon SageMaker AI

Eine Zero-ETL-Integration mit einem Lakehouse Amazon SageMaker AI

Die Integration überwacht den Zustand der Datenpipeline und behebt nach Möglichkeit Probleme. Sie können Integrationen aus mehreren von mehreren RDS-Datenbanken in ein einziges Ziel-Data Warehouse oder Lakehouse erstellen, sodass Sie Erkenntnisse über mehrere Anwendungen hinweg gewinnen können.

Vorteile

RDS Zero-ETL-Integrationen bieten die folgenden Vorteile:

  • Sie helfen Ihnen dabei, ganzheitliche Erkenntnisse aus mehreren Datenquellen zu gewinnen.

  • Eliminieren Sie die Erfordernis zur Erstellung und Verwaltung komplexer Daten-Pipelines, die Extract, Transform, Load (ETL)-Operationen ausführen. Null-ETL-Integrationen beseitigen die Herausforderungen, die mit dem Aufbau und der Verwaltung von Pipelines einhergehen, indem sie diese für Sie bereitstellen und verwalten.

  • Sie reduzieren den Betriebsaufwand und die Kosten, sodass Sie sich ganz auf die Verbesserung Ihrer Anwendungen konzentrieren können.

  • Sie können die Analyse- und ML-Funktionen des Zielorts nutzen, um Erkenntnisse aus Transaktions- und anderen Daten zu gewinnen und effektiv auf kritische, zeitkritische Ereignisse zu reagieren.

Die wichtigsten Konzepte

Wenn Sie mit Null-ETL-Integrationen beginnen, sollten Sie die folgenden Konzepte berücksichtigen:

Integration

Eine vollständig verwaltete Datenpipeline, die automatisch Transaktionsdaten und Schemas aus einem einer RDS-Datenbank in ein Data Warehouse oder einen Katalog repliziert.

Der der RDS-Datenbank, aus dem Daten repliziert werden. Sie können eine Single-AZ- oder Multi-AZ-DB-Instance oder einen Multi-AZ-DB-Cluster angeben.

Ziel

Das Data Warehouse oder Lakehouse, in das die Daten repliziert werden. Es gibt zwei Arten von Data Warehouse: ein bereitgestelltes Cluster-Data-Warehouse und ein Serverless-Data-Warehouse. Ein bereitgestelltes Cluster-Data-Warehouse ist eine Sammlung von Datenverarbeitungsressourcen, den sogenannten Knoten, die zu einer Gruppe, einem sogenannten Cluster, zusammengefasst werden. Ein Serverless-Data-Warehouse besteht aus einer Arbeitsgruppe, die Datenverarbeitungsressourcen speichert, und einem Namespace, in dem die Datenbankobjekte und Benutzer gespeichert sind. Beide Data Warehouses verwenden eine Analyse-Engine und enthalten eine oder mehrere Datenbanken.

Ein Ziel-Lakehouse besteht aus Katalogen, Datenbanken, Tabellen und Ansichten. Weitere Informationen zur Lakehouse-Architektur finden Sie SageMaker Lakehouse componentsim Amazon SageMaker AI Unified Studio Benutzerhandbuch.

können mehrere Quelldatenbanken auf dasselbe Ziel schreiben.

Weitere Informationen finden Sie unter Architektur des Data-Warehouse-Systems im Entwicklerhandbuch zu Amazon Redshift.

Einschränkungen

Die folgenden Einschränkungen gelten für RDS Zero-ETL-Integrationen.

Allgemeine Einschränkungen

  • Der muss sich in derselben Region wie das Ziel befinden.

  • Sie können einen Datenbank-DB-Cluster nicht umbenennen, wenn er über bestehende Integrationen verfügt.

  • Sie können nicht mehrere Integrationen zwischen derselben Quell- und Zieldatenbank erstellen.

  • Sie können keinen löschen, der über bestehende Integrationen verfügt. Sie müssen zuerst alle zugehörigen Integrationen löschen.

  • Sie können eine Integration nicht löschen, wenn die Quelldatenbank gestoppt ist.

  • Wenn Ihr die Quelle einer blauen/grünen Bereitstellung ist, können die blauen und grünen Umgebungen während des Switchovers keine vorhandenen Zero-ETL-Integrationen enthalten. Sie müssen zuerst die Integration löschen und umstellen. Anschließend erstellen Sie die Integration neu.

  • Sie können keine Integration für eine Quelldatenbank erstellen, für die eine andere Integration aktiv erstellt wird.

  • Wenn Sie zum ersten Mal eine Integration erstellen oder wenn eine Tabelle erneut synchronisiert wird, kann das Seeding von Daten von der Quelle zum Ziel je nach Größe der Quelldatenbank 20 bis 25 Minuten oder länger dauern. Diese Verzögerung kann zu einer erhöhten Replikatverzögerung führen.

  • Einige Datentypen werden nicht unterstützt. Weitere Informationen finden Sie unter Datentypunterschiede zwischen RDS und Amazon Redshift-Datenbanken.

  • Systemtabellen, temporäre Tabellen und Ansichten werden nicht in Ziel-Warehouses repliziert.

  • Das Ausführen von DDL-Befehlen (z. B.ALTER TABLE) für eine Quelltabelle kann eine Resynchronisierung der Tabelle auslösen, sodass die Tabelle während der Resynchronisierung nicht mehr abgefragt werden kann. Weitere Informationen finden Sie unter Eine oder mehrere meiner Amazon-Redshift-Tabellen erfordern eine erneute Synchronisation.

Einschränkungen von RDS für MySQL

  • In Ihrer Quelldatenbank muss eine unterstützte Version von RDS for MySQL ausgeführt werden. Eine Liste der unterstützten Versionen finden Sie unter Unterstützte Regionen und DB-Engines für Amazon RDS Zero-ETL-Integrationen.

  • Zero-ETL-Integrationen werden nicht sowohl auf der primären Instance als auch auf einer Read Replica-Instance in derselben Region unterstützt. AWS

  • Null-ETL-Integrationen benötigen die MySQL-Binärprotokollierung (Binlog), um laufende Datenänderungen zu erfassen. Verwenden Sie keine binlog-basierte Datenfilterung, da dies zu Dateninkonsistenzen zwischen der Quell- und der Zieldatenbank führen kann.

  • Null-ETL-Integrationen werden nur für Datenbanken unterstützt, die für die Verwendung der InnoDB-Speicher-Engine konfiguriert sind.

  • Fremdschlüsselverweise mit vordefinierten Tabellenaktualisierungen werden nicht unterstützt. Insbesondere werden ON UPDATE Regeln mit CASCADESET NULL, und SET DEFAULT -Aktionen nicht unterstützt. ON DELETE Der Versuch, eine Tabelle mit solchen Verweisen in einer anderen Tabelle zu erstellen oder zu aktualisieren, führt zu einem Fehlschlag der Tabelle.

Einschränkungen von RDS für PostgreSQL

  • Bei der Quelldatenbank muss es sich um eine RDS für PostgreSQL-Instance handeln, auf der Version 15.7+, 16.3+ oder 17.1+ ausgeführt wird. Frühere Versionen werden nicht unterstützt.

  • Sie können keine Zero-ETL-Integration von einer RDS for PostgreSQL-Read Replica-Instance aus erstellen.

  • Nicht protokollierte PostgreSQL-Tabellen und materialisierte Ansichten werden nicht nach Amazon Redshift repliziert.

  • Die Replikation bestimmter PostgreSQL-Datentypen, wie Geometriedatentypen und Daten mit mehr als 64 KB, wird aufgrund von Einschränkungen in Amazon Redshift nicht unterstützt. Weitere Informationen zu den Datentypunterschieden zwischen RDS for PostgreSQL und Amazon Redshift finden Sie im Abschnitt Datentypunterschiede.

  • Sie können kein Hauptversions-Upgrade für die Quell-Instance von RDS for PostgreSQL durchführen, solange sie über eine aktive Zero-ETL-Integration verfügt. Um die Quell-Instance zu aktualisieren, müssen Sie zunächst alle vorhandenen Zero-ETL-Integrationen löschen. Nachdem das Upgrade der Hauptversion abgeschlossen ist, können Sie die Zero-ETL-Integrationen neu erstellen.

  • Wenn Sie deklarative Partitionierungstransaktionen auf der Quell-DB-Instance durchführen, gehen alle betroffenen Tabellen in den Status „Fehlgeschlagen“ über und sind nicht mehr zugänglich.

Beschränkungen von RDS for Oracle

  • Bei der Quelldatenbank muss es sich um eine RDS for Oracle-Instance handeln, auf der Version 19c Enterprise Edition oder Standard Edition 2, Release-Update vom Juli 2019 oder höher ausgeführt wird. Frühere Versionen werden nicht unterstützt.

  • Sie können keine Zero-ETL-Integration von einer Read Replica-Instance von RDS for Oracle aus erstellen.

  • Sie können eine Tenant-Datenbank nicht umbenennen, wenn in dieser Tenant-Datenbank eine Zero-ETL-Integration vorhanden ist.

  • Eine Tenant-Datenbank kann nur eine Zero-ETL-Integration haben.

  • Wenn Sie eine Zero-ETL-Integration von RDS for Oracle erstellen, können Sie diese Integration nicht ändern. Um eine Integration zu ändern, müssen Sie die Integration löschen und dann eine neue erstellen.

  • RDS for Oracle und Amazon Redshift weisen einige Datentypunterschiede auf. Weitere Informationen finden Sie RDS für Oracle im Abschnitt Unterschiede zwischen den Datentypen.

Einschränkungen für Amazon Redshift

Eine Liste der Einschränkungen von Amazon Redshift im Zusammenhang mit Zero-ETL-Integrationen finden Sie unter Überlegungen zur Verwendung von Zero-ETL-Integrationen mit Amazon Redshift im Amazon Redshift Management Guide.

Amazon SageMaker AI Einschränkungen bei Lakehouse

Im Folgenden finden Sie eine Einschränkung für Amazon SageMaker AI Lakehouse Zero-ETL-Integrationen.

  • Katalognamen sind auf eine Länge von 19 Zeichen begrenzt.

Kontingente

Ihr Konto hat die folgenden Kontingente für RDS Zero-ETL-Integrationen. Jedes Kontingent gilt pro Region, sofern nicht anders angegeben.

Name Standard Beschreibung
Integrationen 100 Die Gesamtzahl der Integrationen innerhalb eines  AWS-Konto.
Integrationen pro Ziel 50 Die Anzahl der Integrationen, die Daten an ein einzelnes Ziel-Data Warehouse oder Lakehouse senden.
Integrationen pro Quell-Instance 5

Darüber hinaus legt das Ziel-Warehouse bestimmte Beschränkungen für die Anzahl der Tabellen fest, die in jeder DB-Instance oder jedem Clusterknoten zulässig sind. Weitere Informationen zu Amazon Redshift-Kontingenten und -Limits finden Sie unter Kontingente und Limits in Amazon Redshift im Amazon Redshift Management Guide.

Unterstützte Regionen

RDS Zero-ETL-Integrationen sind in einer Teilmenge von verfügbar. AWS-Regionen Eine Liste der unterstützten -Regionen finden Sie unter Unterstützte Regionen und DB-Engines für Amazon RDS Zero-ETL-Integrationen.