Verwenden von Data-Catalog-Tabellen für die Datenquelle - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Data-Catalog-Tabellen für die Datenquelle

Für alle Datenquellen außer Amazon S3 und Konnektoren muss eine Tabelle in der AWS Glue Data Catalog für den Quelltyp, den Sie wählen. AWS Glue erstellt die Datenkatalogtabelle nicht.

Einen Datenquellknoten basierend auf einer Data-Catalog-Tabelle konfigurieren
  1. Rufen Sie im visuellen Editor einen neuen oder einen gespeicherten Auftrag auf.

  2. Wählen Sie im Auftragsdiagramm einen Datenquellknoten aus.

  3. Wählen Sie die Registerkarte Data source properties (Datenquelleneigenschaften) aus und geben Sie die folgenden Informationen ein:

    • S3-Quelltyp: (nur für Amazon S3 S3-Datenquellen) Wählen Sie die Option Wählen Sie eine Katalogtabelle aus, um eine vorhandene zu verwenden AWS Glue Data Catalog Tabelle.

    • Database (Datenbank): Wählen Sie die Datenbank im Data Catalog aus, die die Quelltabelle enthält, die Sie für diesen Auftrag verwenden möchten. Sie können über das Suchfeld eine Datenbank nach ihrem Namen suchen.

    • Table (Tabelle): Wählen Sie die Tabelle aus, die mit den Quelldaten verknüpft ist. Diese Tabelle muss bereits existieren in derAWS Glue Data Catalog. Sie können das Suchfeld verwenden, um anhand ihres Namens nach einer Tabelle zu suchen.

    • Partition predicate (Partitionsprädikat): (Nur für Amazon-S3-Datenquellen) Geben Sie einen Booleschen Ausdruck ein, der auf Spark SQL nur mit Partitionierungsspalten basiert. Zum Beispiel: "(year=='2020' and month=='04')"

    • Temporary directory (Temporäres Verzeichnis): (Nur für Amazon-Redshift-Datenquellen) Geben Sie einen Pfad für den Speicherort eines Arbeitsverzeichnisses in Amazon S3 ein, in das Ihr ETL-Auftrag temporäre Zwischenergebnisse schreiben kann.

    • Role associated with the cluster (Mit dem Cluster verknüpfte Rolle): (Nur für Amazon-Redshift-Datenquellen) Geben Sie eine zu verwendende Rolle für Ihren ETL-Auftrag ein, die über Berechtigungen für Amazon Redshift -Cluster verfügt. Weitere Informationen finden Sie unter Datenquellen- und Datenzielberechtigungen.