Conversione da schemi semistrutturati a schemi relazionali con AWS Glue - AWS Aderenza

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Conversione da schemi semistrutturati a schemi relazionali con AWS Glue

La conversione dei dati semistrutturati in tabelle relazionali è piuttosto comune. Concettualmente, stai appiattendo uno schema gerarchico a uno schema relazionale. AWS Gluepuò eseguire questa conversione per te. on-the-fly

I dati semistrutturati in genere contengono mark-up per identificare le entità all'interno dei dati. Si possono avere strutture di dati annidate senza schema fisso. Per ulteriori informazioni sui dati semistrutturati, consulta Dati semistrutturati in Wikipedia.

I dati relazionali sono rappresentati da tabelle che contengono righe e colonne. Le relazioni tra tabelle possono essere rappresentate da una relazione chiave primaria (PK) su chiave esterna (FK). Per ulteriori informazioni, consulta Database relazionale in Wikipedia.

AWS Glue usa i crawler per dedurre gli schemi per i dati semistrutturati. Quindi trasforma i dati in uno schema relazionale utilizzando un processo ETL (estrazione, trasformazione e caricamento). Ad esempio, potresti voler analizzare JSON i dati dai file sorgente di Amazon Simple Storage Service (Amazon S3) in tabelle di Amazon Relational Database Service (Amazon). RDS Comprendere come AWS Glue gestisce le differenze tra gli schemi può aiutare a capire il processo di trasformazione.

Questo diagramma mostra come AWS Glue trasforma uno schema semistrutturato in uno schema relazionale.

Flusso che mostra la conversione da schema semistrutturato a schema relazionale.

Il diagramma illustra quanto segue:

  • Il singolo valore A converte direttamente in una colonna relazionale.

  • La coppia di valori B1 e B2 converte in due colonne relazionali.

  • Struttura C, con figli X e Y, converte in due colonne relazionali.

  • L'array D[] converte in una colonna relazionale con una chiave esterna (FK) che punta a un'altra tabella relazionale. Oltre a una chiave primaria (PK), la seconda tabella relazionale dispone di colonne che contengono l'offset e il valore degli oggetti nell'array.