Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwendung von Data-Lake-Frameworks mit AWS Glue Studio
Übersicht
Open-Source-Data-Lake-Frameworks vereinfachen die inkrementelle Datenverarbeitung für Dateien, die in auf Amazon S3 erstellten Data Lakes gespeichert sind. AWS Glue 3.0 und höher unterstützen die folgenden Open-Source-Data-Lake-Speicherframeworks:
-
Apache Hudi
-
Linux Foundation Delta Lake
-
Apache Iceberg
Ab AWS Glue 4.0 bietet AWS Glue native Unterstützung für diese Frameworks, sodass Sie Daten, die Sie in Amazon S3 speichern, transaktionskonsistent lesen und schreiben können. Sie benötigen keinen separaten Konnektor oder zusätzliche Konfigurationsschritte, um diese Frameworks in AWS Glue-Aufträgen zu verwenden.
Data-Lake-Frameworks können als Quelle oder Ziel innerhalb von AWS Glue Studio über Spark-Skripteditor-Aufträge verwendet werden. Weitere Informationen zur Verwendung von Apache Hudi, Apache Iceberg und Delta Lake finden Sie unter: Verwenden von Data-Lake-Frameworks mit AWS Glue-ETL-Aufträgen.
Open-Table-Formate aus einer AWS Glue Streaming-Quelle erstellen
AWS Glue Streaming-ETL-Jobs verbrauchen kontinuierlich Daten aus Streaming-Quellen, bereinigen und transformieren die Daten während der Übertragung und stellen sie innerhalb von Sekunden für Analysen zur Verfügung.
AWS bietet eine breite Auswahl an Dienstleistungen zur Unterstützung Ihrer Bedürfnisse. Ein Datenbankreplikationsservice wie AWS Database Migration Service kann die Daten aus Ihren Quellsystemen nach Amazon S3 replizieren, das üblicherweise die Speicherebene des Data Lake hostet. Es ist zwar einfach, Updates in einem relationalen Datenbankmanagementsystem (RDBMS) anzuwenden, das eine Online-Quellanwendung unterstützt, aber es ist kompliziert, diesen CDC-Prozess auf Ihre Data Lakes anzuwenden. Die Open-Source-Frameworks für Datenmanagement vereinfachen die inkrementelle Datenverarbeitung und die Entwicklung von Datenpipelines und sind eine gute Option zur Lösung dieses Problems.
Weitere Informationen finden Sie unter: