Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Dateningenieure und DevOps Experten verwenden AWS Glue Extract, Transform and Load (ETL) mit Apache Spark, um Transformationen an ihren Datensätzen in Amazon S3 durchzuführen und die transformierten Daten für Analysen, maschinelles Lernen und Anwendungsentwicklung in Data Lakes und Data Warehouses zu laden. Da verschiedene Teams auf denselben Datensatz in Amazon S3 zugreifen, ist es unerlässlich, Berechtigungen basierend auf ihren Rollen zu gewähren und einzuschränken.
AWS Lake Formation ist darauf aufgebaut AWS Glue, und die Dienste interagieren auf folgende Weise:
-
Lake Formation und AWS Glue teilen sich denselben Datenkatalog.
-
Die folgenden Funktionen der Lake Formation Formation-Konsole rufen das auf AWS Glue Konsole:
-
Jobs — Weitere Informationen finden Sie unter Jobs hinzufügen im AWS Glue Developer Guide.
-
Crawler — Weitere Informationen finden Sie unter Katalogisieren von Tabellen mit einem Crawler im AWS Glue Entwicklerhandbuch.
-
-
Die Workflows, die generiert werden, wenn Sie einen Lake Formation-Blueprint verwenden, sind AWS Glue Workflows. Sie können diese Workflows sowohl in der Lake Formation Formation-Konsole als auch in der AWS Glue console.
-
Transformationen für maschinelles Lernen werden mit Lake Formation bereitgestellt und basieren auf AWS Glue API-Operationen. Sie erstellen und verwalten Transformationen für maschinelles Lernen auf der AWS Glue console. Weitere Informationen finden Sie unter Machine Learning Transforms im AWS Glue Developer Guide.
Sie können die detaillierte Zugriffskontrolle von Lake Formation verwenden, um Ihre vorhandenen Datenkatalogressourcen und Amazon S3 S3-Datenstandorte zu verwalten.
Anmerkung
AWS Glue 5.0 oder höher unterstützt detaillierte Zugriffskontrollen für Iceberg- und Hive-Tabellen, die von S3 unterstützt werden. Mit dieser Funktion können Sie Zugriffskontrollen auf Tabellen-, Zeilen-, Spalten- und Zellenebene für Leseabfragen innerhalb Ihrer AWS Glue Apache Spark-Jobs konfigurieren.
Support für Transaktionstabellentypen
Durch die Anwendung Lake Formation Formation-Berechtigungen können Sie Ihre Transaktionsdaten in Ihren Amazon S3 S3-basierten Data Lakes sichern. In der folgenden Tabelle sind die in unterstützten Transaktionstabellenformate AWS Glue und die Lake Formation Formation-Berechtigungen aufgeführt. Lake Formation setzt diese AWS Glue Betriebsgenehmigungen durch.
Tabellenformat | Beschreibung und zulässige Operationen | Lake Formation Formation-Berechtigungen werden unterstützt in AWS Glue |
---|---|---|
Apache Hudi |
Ein offenes Tabellenformat, das zur Vereinfachung der inkrementellen Datenverarbeitung und der Entwicklung von Datenpipelines verwendet wird. Beispiele finden Sie unter Verwenden des Hudi-Frameworks in. AWS Glue |
Für Hudi-Tabellen sind Berechtigungen auf Tabellenebene verfügbar. Weitere Informationen finden Sie unter Limitations. |
Apache Iceberg |
Ein offenes Tabellenformat, das große Sammlungen von Dateien als Tabellen verwaltet. Beispiele finden Sie unter Verwenden des Iceberg-Frameworks in AWS Glue. |
AWS Glue Mit Version 5.0 und höher können Sie Zugriffskontrollen auf Tabellen-, Zeilen-, Spalten- und Zellenebene für Leseabfragen innerhalb Ihrer Apache Spark-Jobs AWS Glue für Iceberg-Tabellen konfigurieren. Weitere Informationen finden Sie unter Limitations. |
Linux Foundation Delta Lake |
Delta Lake ist ein Open-Source-Projekt, das bei der Implementierung moderner Data-Lake-Architekturen hilft, die üblicherweise auf Amazon S3 oder Hadoop Distributed File System (HDFS) basieren. Beispiele finden Sie unter Verwenden des Delta Lake-Frameworks in. AWS Glue |
Für Delta Lake-Tabellen sind Berechtigungen auf Tabellenebene verfügbar. Weitere Informationen finden Sie unter Limitations. |
Weitere Ressourcen
Blogbeiträge und Repositorien
-
Schreiben in Apache Hudi-Tabellen mit einem benutzerdefinierten Konnektor AWS Glue
-
AWS Repository mit Cloudformation-Vorlage und Pyspark-Codebeispiel
zur Analyse von Streaming-Daten mit AWS Glue Apache Hudi und Amazon S3.