Converter esquemas semi-estruturados em esquemas relacionais com o AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Converter esquemas semi-estruturados em esquemas relacionais com o AWS Glue

É comum querer converter dados semiestruturados em tabelas relacionais. Conceitualmente, você está nivelando um esquema hierárquico para um esquema relacional. O AWS Glue pode realizar essa conversão para você rapidamente.

Os dados semiestruturados normalmente contêm marcação para identificar entidades nos dados. Ele pode ter estruturas de dados aninhadas sem um esquema fixo. Para obter mais informações sobre dados semiestruturados, consulte Dados semiestruturados na Wikipédia.

Os dados relacionais são representados por tabelas que consistem em linhas e colunas. As relações entre tabelas podem ser representadas por uma relação de chave primária (PK) para chave externa (FK). Para obter mais informações, consulte Banco de dados relacional na Wikipédia.

O AWS Glue usa crawlers para inferir esquemas para dados semiestruturados. Em seguida, ele transforma os dados em um esquema relacional usando um trabalho de ETL (extração, transformação e carregamento). Por exemplo, você pode desejar analisar dados JSON desde os arquivos de origem do Amazon Simple Storage Service (Amazon S3) até as tabelas do Amazon Relational Database Service (Amazon RDS). Saber como o AWS Glue lida com as diferenças entre esquemas pode ajudar você a entender o processo de transformação.

Este diagrama mostra como o AWS Glue transforma um esquema semiestruturado em um esquema relacional.

Fluxo mostrando a conversão de um esquema semiestruturado em um esquema relacional.

O diagrama ilustra o seguinte:

  • O valor único A converte-se diretamente em uma coluna relacional.

  • O par de valores B1 e B2 se convertem em duas colunas relacionais.

  • A estrutura C, com X e Y filhos, converte-se em duas colunas relacionais.

  • A matriz D[] se converte em uma coluna relacional com uma chave externa (FK) que aponta para outra tabela relacional. Junto com uma chave primária (PK), a segunda tabela relacional apresenta colunas que contêm o deslocamento e o valor dos itens na matriz.