Definir metadados manualmente - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Definir metadados manualmente

O Catálogo de Dados do AWS Glue é um repositório central que armazena metadados sobre suas fontes de dados e conjuntos de dados. Embora um crawler possa obter e preencher automaticamente os metadados das fontes de dados compatíveis, há alguns cenários em que talvez seja necessário definir os metadados manualmente no Catálogo de Dados:

  • Formatos de dados incompatíveis: se você tiver fontes de dados que não são compatíveis com o crawler, será necessário definir manualmente os metadados dessas fontes de dados no Catálogo de Dados.

  • Requisitos de metadados personalizados: o Crawler do AWS Glue infere metadados com base em regras e convenções predefinidas. Se você tiver requisitos específicos de metadados que não são cobertos pelos metadados Crawler do AWS Glue inferidos, você poderá definir manualmente os metadados para atender às suas necessidades

  • Governança e padronização de dados: em alguns casos, talvez você queira ter mais controle sobre as definições de metadados por motivos de governança, conformidade ou segurança de dados. A definição manual de metadados permite garantir que os metadados estejam de acordo com os padrões e políticas da sua organização.

  • Espaço reservado para futura ingestão de dados: se houver fontes de dados que não estão imediatamente disponíveis ou acessíveis, você poderá criar tabelas de esquema vazias como espaços reservados. Quando as fontes de dados se tornarem disponíveis, você poderá preencher as tabelas com os dados reais, mantendo a estrutura predefinida.

Para definir metadados manualmente, você pode usar o console do AWS Glue, o console do Lake Formation, a API do AWS Glue ou o a AWS Command Line Interface (AWS CLI). É possível criar bancos de dados, tabelas e partições e especificar propriedades de metadados, como nomes de colunas, tipos de dados, descrições e outros atributos.