Conversión de esquemas semiestructurados a esquemas relacionales con AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conversión de esquemas semiestructurados a esquemas relacionales con AWS Glue

Es habitual querer convertir los datos semiestructurados en tablas relacionales. Conceptualmente, usted aplana un esquema jerárquico a un esquema relacional. AWS Glue puede realizar esta conversión automáticamente sobre la marcha.

Los datos semiestructurados suelen contar con margen para identificar las entidades dentro de los datos. Puede tener estructuras de datos anidadas sin esquema fijo. Para obtener más información acerca de los datos semiestructurados, consulte Datos semiestructurados en Wikipedia.

Los datos relacionales vienen representados por tablas que constan de filas y columnas. Las relaciones entre las tablas se pueden representar mediante una relación de clave principal a clave externa. Para obtener más información, consulte Base de datos relacional en Wikipedia.

AWS Glue usa los rastreadores para inferir esquemas para los datos semiestructurados. A continuación, transforma los datos en un esquema relacional mediante un flujo de trabajo de ETL (extracción, transformación y carga). Por ejemplo, es posible que desee diseccionar datos JSON desde archivos de origen de Amazon Simple Storage Service (Amazon S3) hacia tablas de Amazon Relational Database Service (Amazon RDS). Saber cómo controla AWS Glue las diferencias entre los esquemas puede ayudarle a entender el proceso de transformación.

En este diagrama se muestra cómo transforma AWS Glue un esquema semiestructurado en un esquema relacional.

Flujo en el que se muestra la conversión del esquema semiestructurado en el esquema relacional.

En el siguiente diagrama se ilustra lo siguiente:

  • El valor único A se convierte directamente en una columna relacional.

  • El par de valores B1 y B2 se convierten en dos columnas relacionales.

  • La estructura C, con los elementos secundarios X e Y, se convierte en dos columnas relacionales.

  • La matriz D[] se convierte en una columna relacional con una clave externa que apunta a otra tabla relacional. Junto con una clave principal, la segunda tabla relacional tiene columnas que contienen el desplazamiento y el valor de los elementos en la matriz.