Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden des Delta Lake-Frameworks in AWS Glue Studio
Verwendung des Delta-Lake-Frameworks in Datenquellen
Verwendung des Delta-Lake-Frameworks in Amazon-S3-Datenquellen
-
Wählen Sie im Menü Quelle Amazon S3.
-
Wenn Sie die Datenkatalog-Tabelle als Amazon-S3-Quelltyp wählen, wählen Sie eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt das Format als Delta Lake und die Amazon S3 S3-URL an.
-
Wählen Sie Zusätzliche Optionen, um ein Schlüssel-Wert-Paar einzugeben. Ein Schlüssel-Wert-Paar könnte beispielsweise sein: Schlüssel: timestampAsOf und Wert: 2023-02-24 14:16:18.
-
Wenn Sie den Amazon-S3-Standort als Amazon-S3-Quelltyp wählen, wählen Sie die Amazon-S3-URL aus, indem Sie auf Amazon S3 durchsuchen klicken.
-
Wählen Sie unter Datenformat die Option Delta Lake aus.
Anmerkung
Wenn AWS Glue Studio kann das Schema nicht aus dem ausgewählten Amazon S3 S3-Ordner oder der ausgewählten Datei ableiten. Wählen Sie Zusätzliche Optionen, um einen neuen Ordner oder eine neue Datei auszuwählen.
Wählen Sie unter Zusätzliche Optionen unter Schema-Inferenz aus den folgenden Optionen:
-
Lass AWS Glue Studio automatisch eine Beispieldatei auswählen — AWS Glue Studio wählt eine Beispieldatei am Amazon S3 S3-Speicherort aus, sodass das Schema abgeleitet werden kann. Im Feld Datei mit automatischem Sampling können Sie die Datei anzeigen, die automatisch ausgewählt wurde.
-
Wählen Sie eine Beispieldatei aus Amazon S3 – wählen Sie die Amazon-S3-Datei aus, die Sie verwenden möchten, indem Sie auf Amazon S3 durchsuchen klicken.
-
-
Klicken Sie auf Schema ableiten. Sie können das Ausgabeschema dann anzeigen, indem Sie auf die Registerkarte Ausgabeschema klicken.
Verwendung des Delta-Lake-Frameworks in Datenkatalog-Datenquellen
-
Wählen Sie im Menü Quelle AWS Glue Studio Datenkatalog.
-
Wählen Sie auf in Registerkarte Datenquelleneigenschaften eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt den Formattyp als Delta Lake und die Amazon S3 S3-URL an.
Anmerkung
Wenn Ihre Delta Lake-Quelle nicht registriert ist als AWS Glue In der Datenkatalogtabelle haben Sie noch zwei Möglichkeiten:
-
Erstellen Sie eine AWS Glue Crawler für den Delta Lake-Datenspeicher. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta-Lake-Datenspeicher an.
-
Verwenden aus einer Amazon-S3-Datenquelle, um Ihre Delta-Lake-Datenquelle auszuwählen. Siehe Verwendung des Delta-Lake-Frameworks in Amazon-S3-Datenquellen .
-
Verwendung von Delta-Lake-Formaten in Datenzielen
Verwendung von Delta-Lake-Formaten in Datenkatalog-Datenzielen
-
Wählen Sie im Menü Ziel AWS Glue Studio Datenkatalog.
-
Wählen Sie auf in Registerkarte Datenquelleneigenschaften eine Datenbank und eine Tabelle aus.
-
AWS Glue Studio zeigt den Formattyp als Delta Lake und die Amazon S3 S3-URL an.
Verwendung von Delta-Lake-Formaten in Amazon-S3-Datenquellen
Geben Sie Werte ein oder wählen Sie aus den verfügbaren Optionen, um das Delta–Lake-Format zu konfigurieren.
-
Komprimierungstyp – Wählen Sie eine der Optionen für den Komprimierungstyp: Unkomprimiert oder Snappy.
-
Amazon-S3-Zielstandort – Wählen Sie den Amazon-S3-Zielstandort aus, indem Sie auf S3 durchsuchen klicken.
-
Aktualisierungsoptionen für den Datenkatalog – Die Aktualisierung des Datenkatalogs wird für dieses Format im visuellen Editor von Glue Studio nicht unterstützt.
-
Do not update the Data Catalog (Data Catalog nicht aktualisieren): (Standard) Wählen Sie diese Option, wenn der Auftrag den Data Catalog nicht aktualisieren soll, selbst wenn sich das Schema ändert oder neue Partitionen hinzukommen.
-
Um den Datenkatalog nach dem zu aktualisieren AWS Glue Ausführung eines Jobs, Ausführung oder Planung eines AWS Glue Crawler. Weitere Informationen finden Sie unter So geben Sie Konfigurationsoptionen für einen Delta-Lake-Datenspeicher an.
-
-
Partitionsschlüssel: Wählen Sie aus, welche Spalten als Partitionsschlüssel in der Ausgabe verwendet werden sollen. Um weitere Partitionsschlüssel hinzuzufügen, wählen Sie Add a partition key (Partitionsschlüssel hinzufügen) aus.
-
Wählen Sie Zusätzliche Optionen, um ein Schlüssel-Wert-Paar einzugeben. Ein Schlüssel-Wert-Paar könnte beispielsweise sein: Schlüssel: timestampAsOf und Wert: 2023-02-24 14:16:18.