Integration mit anderen AWS Diensten

Sie können zwar AWS-Glue-Crawler s verwenden, um sie zu füllen AWS Glue Data Catalog, aber es gibt mehrere AWS Dienste, die sich automatisch in den Katalog integrieren und ihn für Sie füllen können. In den folgenden Abschnitten finden Sie weitere Informationen zu den spezifischen Anwendungsfällen, die von AWS Diensten unterstützt werden, die den Datenkatalog auffüllen können.

AWS Lake Formation

AWS Lake Formation ist ein Dienst, der es einfacher macht, einen sicheren Data Lake einzurichten. AWS Lake Formation ist darauf aufgebaut AWS Glue, und Lake Formation und AWS Glue ich teilen dasselbe AWS Glue Data Catalog. Sie können Ihren Amazon S3 S3-Datenstandort bei Lake Formation registrieren und die Lake Formation Formation-Konsole verwenden, um Datenbanken und Tabellen im AWS Glue Datenkatalog zu erstellen, Datenzugriffsrichtlinien zu definieren und den Datenzugriff in Ihrem Data Lake von einer zentralen Stelle aus zu überprüfen. Sie können die detaillierte Zugriffskontrolle von Lake Formation verwenden, um Ihre vorhandenen Datenkatalogressourcen und Amazon S3 S3-Datenstandorte zu verwalten.

Mit Daten, die bei Lake Formation registriert sind, können Sie Datenkatalogressourcen sicher zwischen IAM-Prinzipalen, AWS Konten, AWS Organisationen und Organisationseinheiten gemeinsam nutzen.

Weitere Informationen zum Erstellen von Datenkatalogressourcen mit Lake Formation finden Sie unter Erstellen von Datenkatalogtabellen und Datenbanken im AWS Lake Formation Entwicklerhandbuch.

Amazon Athena

Amazon Athena verwendet den Datenkatalog, um Tabellenmetadaten für die Amazon S3 S3-Daten in Ihrem AWS Konto zu speichern und abzurufen. Mithilfe der Tabellenmetadaten kann die Athena-Abfrage-Engine wissen, wie die Daten, die Sie abfragen möchten, gefunden, gelesen und verarbeitet werden.

Sie können die AWS Glue Data Catalog direkt mit CREATE TABLE Athena-Anweisungen auffüllen. Sie können das Schema und die Partitionsmetadaten im Datenkatalog manuell definieren und auffüllen, ohne einen Crawler ausführen zu müssen.

Erstellen Sie in der Athena-Konsole eine Datenbank, in der die Tabellenmetadaten im Datenkatalog gespeichert werden.
Verwenden Sie die CREATE EXTERNAL TABLE Anweisung, um das Schema Ihrer Datenquelle zu definieren.
Verwenden Sie die PARTITIONED BY Klausel, um alle Partitionsschlüssel zu definieren, wenn Ihre Daten partitioniert sind.
Verwenden Sie die LOCATION Klausel, um den Amazon S3 S3-Pfad anzugeben, in dem Ihre tatsächlichen Datendateien gespeichert werden.
Ausführen der CREATE TABLE-Anweisung.

Diese Abfrage erstellt die Tabellenmetadaten im Datenkatalog auf der Grundlage Ihres definierten Schemas und Ihrer Partitionen, ohne die Daten tatsächlich zu crawlen.

Sie können die Tabelle in Athena abfragen, und es verwendet die Metadaten aus dem Datenkatalog, um auf Ihre Datendateien in Amazon S3 zuzugreifen und diese abzufragen.

Weitere Informationen finden Sie unter Erstellen von Datenbanken und Tabellen im Amazon Athena Athena-Benutzerhandbuch.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Partitionsindizes erstellen

Einstellungen für den Datenkatalog