Preenchendo o Catálogo de dados do AWS Glue - AWS Glue

Se fornecermos uma tradução da versão em inglês do guia, a versão em inglês prevalecerá caso haja qualquer conflito entre as versões. A tradução é fornecida com o uso de tradução por máquina.

Preenchendo o Catálogo de dados do AWS Glue

O Catálogo de dados do AWS Glue contém referências a dados que são usados ​​como fontes e destinos dos seus trabalhos de extração, transformação e carregamento (ETL) no AWS Glue. Para criar o data warehouse ou o data lake, é necessário catalogar esses dados. O Catálogo de dados do AWS Glue é um índice para as métricas de localização, esquema e tempo de execução dos seus dados. Você usa as informações no Data Catalog para criar e monitorar seus trabalhos de ETL. As informações no Data Catalog são armazenadas como tabelas de metadados, em que cada tabela especifica um único armazenamento de dados. Normalmente, você executa um crawler para fazer o inventário dos dados nas suas lojas de dados, mas há outras maneiras de adicionar tabelas de metadados ao seu Data Catalog. Para obter mais informações, consulte Definir tabelas no Catálogo de dados do AWS Glue.

O seguinte diagrama de fluxo de trabalho mostra como os crawlers do AWS Glue interagem com os armazenamentos de dados e outros elementos para preencher o Data Catalog.


      Fluxo de trabalho que mostra como o crawler do AWS Glue preenche o Data Catalog em cinco etapas básicas.

Veja a seguir o fluxo de trabalho geral sobre como um crawler preenche o Catálogo de dados do AWS Glue:

  1. Um crawler executa todos os classificadores personalizados que você escolhe para inferir o formato e o esquema dos seus dados. Você fornece o código para classificadores personalizados, e eles são executados na ordem especificada.

    O primeiro classificador personalizado a reconhecer com sucesso a estrutura de dados é usado para criar um esquema. Os classificadores personalizados em posições inferiores na lista são ignorados. Se nenhum classificador personalizado corresponder ao esquema dos seus dados, os classificadores integrados tentarão reconhecê-lo. Um exemplo de um classificador integrado é um que reconhece JSON.

  2. O crawler se conecta ao armazenamento de dados. Alguns armazenamentos de dados requerem propriedades de conexão para o acesso ao crawler.

  3. O esquema inferido é criado para os seus dados.

  4. O crawler grava os metadados no Data Catalog. Uma definição de tabela contém metadados sobre os dados no seu armazenamento de dados. A tabela é gravada em um banco de dados, que é um contêiner de tabelas no Data Catalog. Os atributos de uma tabela incluem a classificação, que é um rótulo criado pelo classificador que inferiu o esquema da tabela.