Verwendung AWS Lake Formation mit Amazon EMR - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwendung AWS Lake Formation mit Amazon EMR

Amazon EMR ist eine flexible AWS verwaltete Cluster-Plattform, auf der Sie beliebigen benutzerdefinierten Code auf unterstützten Big-Data-Frameworks wie Hadoop Map-Reduce, Spark, Hive, Presto usw. ausführen können. Organizations verwenden Amazon EMR auch, um Batch- und Stream-Datenverarbeitungsanwendungen in einem stark verteilten Cluster auszuführen. Mit Apache Spark auf Amazon EMR können Sie Ihre Datentransformationen und Ihren benutzerdefinierten Code in Datenbanken und Tabellen ausführen, deren Berechtigungen von Lake Formation verwaltet werden.

Es gibt drei Optionen für die Bereitstellung von Amazon EMR:

  • EMR in EC2

  • EMR Serverless

  • Amazon EMR in EKS

Weitere Informationen finden Sie unter Integrieren von Amazon EMR mit Lake Formation oder Verwenden von EMR Serverless mit AWS Lake Formation für eine differenzierte Zugriffskontrolle

Support für Transaktionstabellenformate

Die Amazon EMR-Versionen 6.15.0 und höher bieten Unterstützung für die Zugriffskontrolle auf Tabellen-, Zeilen-, Spalten- und Zellenebene von Lake Formation in den Tabellenformaten Apache Hudi, Apache Iceberg und Delta Lake, wenn Sie Daten mit Spark SQL lesen und schreiben.

Einschränkungen finden Sie unter Überlegungen zu Amazon EMR with Lake Formation.

Unterstützte Tabellenformate
Tabellenformat Beschreibung und zulässige Operationen In Amazon EMR unterstützte Lake Formation Formation-Berechtigungen

Apache Hudi

Ein offenes Tabellenformat, das zur Vereinfachung der inkrementellen Datenverarbeitung und der Entwicklung von Datenpipelines verwendet wird.

Eine Liste der unterstützten Operationen finden Sie unter Apache Hudi und Lake Formation.

Amazon EMR unterstützt die Zugriffskontrolle auf Tabellen-, Zeilen-, Spalten- und Zellenebene mit Apache Hudi.

Apache Iceberg

Ein offenes Tabellenformat, das große Sammlungen von Dateien als Tabellen verwaltet.

Eine Liste der unterstützten Operationen finden Sie unter Apache Iceberg und Lake Formation.

Amazon EMR unterstützt die Zugriffskontrolle auf Tabellen-, Zeilen-, Spalten- und Zellenebene mit Apache Iceberg.

Linux Foundation Delta Lake

Delta Lake ist ein Open-Source-Projekt, das bei der Implementierung moderner Data-Lake-Architekturen hilft, die üblicherweise auf Amazon S3 oder Hadoop Distributed File System (HDFS) basieren.

Eine Liste der unterstützten Operationen finden Sie unter Delta Lake und Lake Formation.

Amazon EMR unterstützt die Zugriffskontrolle auf Tabellen-, Zeilen-, Spalten- und Zellenebene mit Delta Lake-Tabellen.

Weitere Ressourcen