Descoberta e catalogação de dados no AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Descoberta e catalogação de dados no AWS Glue

O AWS Glue Data Catalog é um repositório centralizado que armazena metadados sobre os conjuntos de dados da sua organização. Ele funciona como um índice para métricas de localização, esquema e runtime das suas fontes de dados. Os metadados são armazenados em tabelas de metadados, onde cada tabela representa um único armazenamento de dados.

O Catálogo de Dados pode ser preenchido com a ajuda de um crawler, que verifica automaticamente suas fontes de dados e extrai metadados. Um crawler pode se conectar a fontes de dados internas (baseadas na AWS) e externas à AWS.

Para obter mais informações sobre as fontes de dados compatíveis, consulte Quais armazenamentos de dados posso rastrear?.

Também é possível criar tabelas no Catálogo de Dados manualmente definindo a estrutura da tabela, o esquema e a estrutura de particionamento de acordo com seus requisitos específicos.

Para obter mais informações sobre como criar manualmente tabelas de bancos de dados, consulte Definir metadados manualmente.

Use as informações no Catálogo de Dados para criar e monitorar seus trabalhos de ETL. O Catálogo de Dados se integra a outros serviços de análise da AWS, fornecendo uma visão unificada das fontes de dados e facilitando o gerenciamento e a análise de dados.

  • Amazon Athena: armazene e consulte metadados da tabela no Catálogo de Dados para os dados do Amazon S3 usando SQL.

  • AWS Lake Formation: defina e gerencie centralmente políticas refinadas de acesso a dados e audite o acesso aos dados.

  • Amazon EMR: acesse fontes de dados definidas no Catálogo de Dados para processamento de big data.

  • Amazon SageMaker: crie, treine e implemente modelos de machine learning com rapidez e confiança.

Principais recursos do Catálogo de Dados

A seguir estão os principais aspectos do Catálogo de Dados.

Repositório de metadados

O Catálogo de Dados atua como um repositório central de metadados, armazenando informações sobre a localização, o esquema e as propriedades das suas fontes de dados. Esses metadados são organizados em bancos de dados e tabelas de forma semelhante a um catálogo de banco de dados relacional tradicional.

Descoberta automática de dados

Os Crawler do AWS Glues podem descobrir e catalogar automaticamente fontes de dados novas ou atualizadas, reduzindo a sobrecarga do gerenciamento manual de metadados e garantindo que seu Catálogo de Dados permaneça atualizado. Ao catalogar suas fontes de dados, o Catálogo de Dados facilita que usuários e aplicações descubram e entendam os ativos de dados disponíveis em sua organização, promovendo a reutilização e a colaboração de dados.

O catálogo de dados oferece suporte a uma ampla variedade de fontes de dados, incluindo Amazon S3, Amazon RDS, Amazon Redshift, Apache Hive e muito mais. Ele pode inferir e armazenar automaticamente metadados dessas fontes usando Crawler do AWS Glues.

Para obter mais informações, consulte Usar crawlers para preencher o catálogo de dados .

Gerenciamento de esquemas

O Catálogo de Dados captura e gerencia automaticamente o esquema de suas fontes de dados, incluindo inferência, evolução e controle de versão do esquema. É possível atualizar os esquemas e as partições no Catálogo de Dados usando trabalhos do AWS Glue ETL.

Otimização de tabelas

Para obter uma melhor performance de leitura por serviços de análise da AWS, como o Amazon Athena e o Amazon EMR e trabalhos de ETL do AWS Glue, o Catálogo de Dados oferece compactação gerenciada (um processo que compacta pequenos objetos do Amazon S3 em objetos maiores) para tabelas do Iceberg no Catálogo de Dados. Você pode usar o console do AWS Glue, o console do AWS Lake Formation, a AWS CLI ou a API da AWS para habilitar ou desabilitar a compactação de tabelas individuais do Iceberg que estão no Catálogo de Dados.

Para ter mais informações, consulte Otimizar tabelas Iceberg.

Estatísticas de colunas

Você pode calcular estatísticas em nível de coluna para tabelas do Catálogo de Dados em formatos de dados como Parquet, ORC, JSON, ION, CSV e XML sem precisar configurar pipelines de dados adicionais. As estatísticas de colunas ajudam você a entender os perfis de dados obtendo insights sobre os valores em uma coluna. O Catálogo de Dados possibilita a geração de estatísticas para valores de colunas, como valor mínimo, valor máximo, valores nulos totais, valores distintos totais, comprimento médio dos valores e ocorrências totais de valores reais.

Para ter mais informações, consulte Otimizar a performance da consulta usando estatísticas de coluna.

Linhagem de dados

O Catálogo de Dados mantém um registro das transformações e operações realizadas em seus dados, fornecendo informações sobre a linhagem de dados. Essas informações de linhagem são valiosas para auditoria, conformidade e compreensão da proveniência dos dados.

Integração com outros serviços da AWS

O catálogo de dados se integra perfeitamente a outros serviços da AWS, como AWS Lake Formation, Amazon Athena, Amazon Redshift Spectrum e Amazon EMR. Essa integração permite que você consulte e analise dados em vários armazenamentos de dados usando uma camada de metadados única e consistente.

Segurança e controle de acesso

O AWS Glue se integra ao AWS Lake Formation para oferecer suporte ao controle de acesso refinado aos recursos do Catálogo de Dados, permitindo que você gerencie permissões e proteja o acesso aos seus ativos de dados com base nas políticas e requisitos da sua organização. O AWS Glue se integra ao AWS Key Management Service (AWS KMS) para criptografar metadados armazenados no Catálogo de Dados.