Verwenden einer SQL Abfrage zum Transformieren von Daten

Sie können eine SQLTransformation verwenden, um Ihre eigene Transformation in Form einer SQL Abfrage zu schreiben.

Ein SQL Transformationsknoten kann mehrere Datensätze als Eingaben haben, erzeugt aber nur einen einzigen Datensatz als Ausgabe. Es enthält ein Textfeld, in das Sie die Apache SQL Spark-Abfrage eingeben. Sie können jedem Datensatz, der als Eingabe verwendet wird, Aliase zuweisen, um die SQL Abfrage zu vereinfachen. Weitere Informationen zur SQL Syntax finden Sie in der SQLSpark-Dokumentation.

Anmerkung

Wenn Sie eine SQL Spark-Transformation mit einer Datenquelle verwenden, die sich in einem befindetVPC, fügen Sie dem, der VPC die Datenquelle enthält, einen AWS Glue VPC Endpunkt hinzu. Weitere Informationen zum Konfigurieren von Entwicklungsendpunkten finden Sie unter Hinzufügen eines Entwicklungsendpunkts, Einrichten Ihrer Umgebung für Entwicklungsendpunkte und Zugreifen auf den Entwicklungsendpunkt im AWS Glue -Entwicklerhandbuch.

Um einen SQL Transformationsknoten in Ihrem Jobdiagramm zu verwenden

(Optional) Fügen Sie dem Auftragsdiagramm bei Bedarf einen Transformationsknoten hinzu. Wählen Sie SQLQuery als Knotentyp aus.

Anmerkung
Wenn Sie eine Datenvorschausitzung und einen benutzerdefinierten SQL oder benutzerdefinierten Codeknoten verwenden, führt die Datenvorschausitzung den SQL Oder-Codeblock unverändert für den gesamten Datensatz aus.
Geben Sie auf der Registerkarte Node properties (Knoteneigenschaften) einen Namen für den Knoten im Auftragsdiagramm ein. Wenn noch kein übergeordneter Knoten ausgewählt ist oder Sie mehrere Eingaben für die SQL Transformation benötigen, wählen Sie einen Knoten aus der Liste der übergeordneten Knoten aus, der als Eingabequelle für die Transformation verwendet werden soll. Fügen Sie nach Bedarf zusätzliche übergeordnete Knoten hinzu.
Wählen Sie die Registerkarte Transform (Transformation) im Bereich mit den Knotendetails aus.
Die Quelldatensätze für die SQL Abfrage werden durch die Namen identifiziert, die Sie im Feld Name für jeden Knoten angegeben haben. Wenn Sie diese Namen nicht verwenden möchten oder wenn die Namen nicht für eine SQL Abfrage geeignet sind, können Sie jedem Datensatz einen Namen zuordnen. Die Konsole stellt Standardaliase bereit, z. B. MyDataSource.

Wenn beispielsweise ein übergeordneter Knoten für den SQL Transformationsknoten benannt istRename Org PK field, können Sie den Namen org_table diesem Datensatz zuordnen. Dieser Alias kann dann in der SQL Abfrage anstelle des Knotennamens verwendet werden.
Fügen Sie die SQL Abfrage in das Texteingabefeld unter der Überschrift Codeblock ein oder geben Sie sie ein. Im Textfeld werden SQL Syntaxhervorhebungen und Stichwortvorschläge angezeigt.
Wählen Sie den SQL Transformationsknoten aus, wählen Sie die Registerkarte Ausgabeschema und dann Bearbeiten aus. Geben Sie die Spalten und Datentypen an, die die Ausgabefelder der SQL Abfrage beschreiben.

Geben Sie das Schema mithilfe der folgenden Aktionen im Abschnitt Output schema (Ausgabeschema) auf der Seite an:
- Um eine Spalte umzubenennen, bewegen Sie den Cursor bei der Spalte in das Textfeld Key (Schlüssel) (auch als field (Field) oder property key (Eigenschaftsschlüssel) bezeichnet) und geben Sie den neuen Namen ein.
- Um den Datentyp für eine Spalte zu ändern, wählen Sie den neuen Datentypen für die Spalte aus der Dropdown-Liste aus.
- Um dem Schema eine neue oberste Spalte hinzuzufügen, wählen Sie die Schaltfläche für Überlauf ( ) und wählen Sie dann Add root key (Rootschlüssel hinzufügen) aus. Neue Spalten werden oben im Schema hinzugefügt.
- Um eine Spalte aus dem Schema zu entfernen, wählen Sie das Symbol zum Löschen ( ) ganz rechts beim Schlüsselnamen aus.
Wenn Sie die Angabe des Ausgabeschemas abgeschlossen haben, wählen Sie Apply (Anwenden) aus, um die Änderungen zu speichern und den Schema-Editor zu verlassen. Wenn Sie Änderungen nicht speichern möchten, wählen Sie Cancel (Abbrechen), um den Schema-Editor zu verlassen.
(Optional) Nachdem Sie die Knoteneigenschaften und Transformationseigenschaften konfiguriert haben, sehen Sie auf der Registerkarte Data preview (Datenvorschau) im Bereich mit den Knotendetails eine Vorschau des geänderten Datensatzes. Wenn Sie diese Registerkarte zum ersten Mal für einen Knoten in Ihrem Job auswählen, werden Sie aufgefordert, eine IAM Rolle für den Zugriff auf die Daten anzugeben. Die Nutzung dieser Funktion ist mit Kosten verbunden, und die Abrechnung beginnt, sobald Sie eine IAM Rolle angeben.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden von DropNullFields zum Entfernen von Feldern mit Nullwerten

Verwenden von Aggregate zum Durchführen zusammenfassender Berechnungen für ausgewählte Felder