Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Transformieren Sie Daten mit AWS Glue verwaltete Transformationen
AWS Glue Studio bietet zwei Arten von Transformationen:
-
AWS Glue-native Transformationen — stehen allen Benutzern zur Verfügung und werden verwaltet von AWS Glue.
-
Benutzerdefinierte visuelle Transformationen — ermöglicht es Ihnen, Ihre eigenen Transformationen hochzuladen, um sie in zu verwenden AWS Glue Studio
AWS Glue verwaltete Datentransformationsknoten
AWS Glue Studio bietet eine Reihe integrierter Transformationen, mit denen Sie Ihre Daten verarbeiten können. Ihre Daten werden in einer Datenstruktur namens DynamicFrame
von einem Knoten im Auftragsdiagramm zum anderen übergeben (eine Erweiterung für ein Apache Spark SQL DataFrame
).
Im vorab ausgefüllten Diagramm für einen Job befindet sich zwischen den Datenquellen- und Datenzielknoten der Transformationsknoten Schema ändern. Sie können diesen Transformationsknoten so konfigurieren, dass er die Daten ändert, oder zusätzliche Transformationen verwenden.
Die folgenden integrierten Transformationen sind verfügbar mit AWS Glue Studio:
-
ChangeSchema: Ordnet Dateneigenschaftsschlüssel in der Datenquelle Dateneigenschaftsschlüsseln im Datenziel zu. Sie können Schlüssel umbenennen, die Datentypen für Schlüssel ändern und die Schlüssel auswählen, die aus dem Datensatz gelöscht werden sollen.
-
SelectFields: Wählen Sie die Dateneigenschaftsschlüssel aus, die Sie behalten möchten.
-
DropFields: Wählen Sie die Dateneigenschaftsschlüssel aus, die Sie löschen möchten.
-
RenameField: Benennt einen einzelnen Dateneigenschaftsschlüssel um.
-
Spigot: Schreiben Sie Beispiele der Daten in einen Amazon-S3-Bucket.
-
Join: Führen Sie zwei Datensätze mit einer Vergleichsphrase für die angegebenen Dateneigenschaftsschlüssel zu einem Datensatz zusammen. Sie können innere, äußere, linke, rechte, linke Hälfte und linke Anti-Joins verwenden.
-
Vereinigung: Kombinieren Sie Zeilen aus mehr als einer Datenquelle, die dasselbe Schema haben.
-
SplitFields: Teilt Dateneigenschaftsschlüssel in zwei Teile auf
DynamicFrames
. Die Ausgabe ist eine Sammlung vonDynamicFrames
: Einer mit ausgewählten Dateneigenschaftsschlüsseln und einer mit den übrigen Dateneigenschaftsschlüsseln. -
SelectFromCollection: Wählen Sie einen
DynamicFrame
aus einer Sammlung vonDynamicFrames
. Die Ausgabe ist der ausgewählteDynamicFrame
. -
FillMissingValues: Suchen Sie nach Datensätzen im Datensatz, bei denen Werte fehlen, und fügen Sie ein neues Feld mit einem vorgeschlagenen Wert hinzu, der durch Imputation bestimmt wird
-
Filter: Teilen Sie ein Datensatz anhand einer Filterbedingung in zwei Datensätze auf.
-
Leere Felder löschen: Entfernt Spalten aus dem Datensatz, wenn alle Werte in der Spalte „Null“ sind.
-
Duplikate löschen: Entfernt Zeilen aus Ihrer Datenquelle, indem entweder ganze Zeilen abgeglichen oder Schlüssel angegeben werden.
-
SQL: Geben Sie SparkSQL-Programmiercode in ein Texteingabefeld ein, um eine SQL-Abfrage zum Transformieren der Daten zu verwenden. Die Ausgabe ist ein einzelner
DynamicFrame
. -
Aggregierung: führt eine Berechnung (wie Durchschnitt, Summe, Min, Max) für ausgewählte Felder und Zeilen durch und erstellt ein neues Feld mit den neu berechneten Werten/dem neu berechneten Wert.
-
Abflachen: Extrahiert Felder innerhalb von Strukturen in Felder der obersten Ebene.
-
UUID: Fügt für jede Zeile eine Spalte mit einem universell eindeutigen Bezeichner hinzu.
-
Identifikator: Fügt für jede Zeile eine Spalte mit einer numerischen ID hinzu.
-
Zum Zeitstempel: Konvertiert eine Spalte in den Zeitstempeltyp.
-
Zeitstempel formatieren: Konvertiert eine Zeitstempelspalte in eine formatierte Zeichenfolge.
-
Bedingte Router-Transformation: Wenden Sie mehrere Bedingungen auf eingehende Daten an. Jede Zeile der eingehenden Daten wird anhand einer Gruppenfilterbedingung ausgewertet und zu der entsprechenden Gruppe verarbeitet.
-
Transformation einer Verkettung von Spalten: Erstellen Sie eine neue Zeichenfolgenspalte unter Verwendung der Werte anderer Spalten mit einem optionalen Abstandszeichen.
-
Transformation einer geteilten Zeichenfolge: Teilen Sie eine Zeichenfolge mithilfe eines regulären Ausdrucks in ein Array von Token auf, um zu definieren, wie die Aufteilung durchgeführt wird.
-
Transformation von Array zu Spalten: Extrahieren Sie einige oder alle Elemente einer Spalte vom Typ Array in neue Spalten.
-
Transformation „Aktuellen Zeitstempel hinzufügen“: Markieren Sie die Zeilen mit der Uhrzeit, zu der die Daten verarbeitet wurden. Dies ist für Prüfzwecke oder zum Verfolgen der Latenz in der Datenpipeline nützlich.
-
Transformation „Zeilen zu Spalten pivotieren“: Aggregieren Sie eine numerische Spalte, indem Sie eindeutige Werte in ausgewählten Spalten rotieren, die zu neuen Spalten werden. Bei Auswahl mehrerer Spalten werden die Werte verkettet, um die neuen Spalten zu benennen.
-
Transformation „Spalten zu Zeilen entpivotieren“: Konvertieren Sie Spalten in Werte neuer Spalten und erzeugen Sie eine Zeile für jeden eindeutigen Wert.
-
Transformation zur automatischen Balance-Verarbeitung: Verteilen Sie die Daten besser unter den Mitarbeitern. Dies ist nützlich, wenn die Daten unausgeglichen sind oder aufgrund ihrer Quelle keine ausreichende Parallelverarbeitung möglich ist.
-
Transformation für abgeleitete Spalten: Definieren Sie eine neue Spalte auf der Grundlage einer mathematischen Formel oder eines SQL-Ausdrucks, in der Sie andere Spalten in den Daten sowie Konstanten und Literale verwenden können.
-
Nachschlage-Transformation: Fügen Sie Spalten aus einer definierten Katalogtabelle hinzu, wenn die Schlüssel mit den definierten Nachschlagespalten in den Daten übereinstimmen.
-
Transformation „Matrix auflösen“ oder „In Zeilen zuordnen“: Extrahieren Sie Werte aus einer verschachtelten Struktur in einzelne Zeilen, die einfacher zu bearbeiten sind.
-
Transformation für den Datensatzabgleich: Rufen Sie eine vorhandene Transformation zur Datenklassifizierung durch Machine Learning zum Datensatzabgleich auf.
-
Transformation zum Entfernen von Nullzeilen: Entfernen Sie Zeilen aus dem Datensatz, deren Spalten alle null oder leer sind.
-
Transformation zum Analysieren von JSON-Spalten: Analysieren Sie eine Zeichenfolgenspalte mit JSON-Daten und konvertieren Sie sie in eine Struktur- oder Array-Spalte, je nachdem, ob es sich bei JSON um ein Objekt oder ein Array handelt.
-
Transformation zum Extrahieren des JSON-Pfads: Extrahieren Sie neue Spalten aus einer JSON-Zeichenfolgenspalte.
-
Zeichenkettenfragmente aus einem regulären Ausdruck extrahieren: Extrahieren Sie Zeichenfolgenfragmente mithilfe eines regulären Ausdrucks und erstellen Sie daraus eine neue Spalte oder mehrere Spalten, wenn Sie Regex-Gruppen verwenden.
-
Custom transform (benutzerdefinierte Transformation): Geben Sie Programmiercode in ein Texteingabefeld ein, um benutzerdefinierte Transformationen zu verwenden. Die Ausgabe ist eine Sammlung von
DynamicFrames
.