Umwandeln semistrukturierter Schemas in relationale Schemas mit AWS Glue - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Umwandeln semistrukturierter Schemas in relationale Schemas mit AWS Glue

Es ist üblich, semistrukturierte Daten in relationale Tabellen umzuwandeln. Konzeptionell reduzieren Sie ein hierarchisches Schema auf ein relationales Schema. AWS Gluekann diese Konvertierung für Sie durchführen. on-the-fly

Semistrukturierte Daten enthalten in der Regel Markups zur Identifizierung von Entitäten innerhalb der Daten. Sie können verschachtelte Datenstrukturen ohne festes Schema umfassen. Weitere Informationen zu semistrukturierten Daten finden Sie im Wikipedia-Artikel zu semistrukturierten Daten.

Relationale Daten werden durch Tabellen repräsentiert, die aus Zeilen und Spalten bestehen. Die Beziehungen zwischen Tabellen können durch eine Beziehung zwischen Primärschlüssel (PK) und Fremdschlüssel (FK) dargestellt werden. Weitere Informationen finden Sie im Wikipedia-Artikel zu relationalen Datenbanken.

AWS Glue verwendet Crawler, um Schemas für semistrukturierte Daten abzuleiten. Anschließend werden die Daten mithilfe eines Jobs ETL (Extrahieren, Transformieren und Laden) in ein relationales Schema umgewandelt. Beispielsweise möchten Sie möglicherweise JSON Daten aus Amazon Simple Storage Service (Amazon S3) -Quelldateien in Amazon Relational Database Service (AmazonRDS) -Tabellen parsen. Wenn Sie verstehen, wie AWS Glue die Unterschiede zwischen Schemas handhabt, können Sie den Prozess der Umwandlung besser nachvollziehen.

In diesem Diagramm wird gezeigt, wie AWS Glue ein semistrukturiertes Schema in ein relationales Schema umwandelt.

Ablauf, der die Umwandlung eines semistrukturierten in ein relationales Schema zeigt.

Das Diagramm veranschaulicht folgende Vorgänge:

  • Der Einzelwert A wird direkt in eine relationale Spalte umgewandelt.

  • Das Wertepaar B1 und B2 wird in zwei relationale Spalten umgewandelt.

  • Die Struktur C, mit den untergeordneten Elementen X und Y, wird in zwei relationale Spalten umgewandelt.

  • Array D[] wird in eine relationale Spalte mit einem Fremdschlüssel (FK) umgewandelt, der auf eine andere relationale Tabelle verweist. Zusammen mit einem Primärschlüssel (PK) verfügt die zweite relationale Tabelle über Spalten, die den Offset und Wert der Elemente im Array enthalten.