Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Otimizar a performance da consulta usando estatísticas de coluna

Modo de foco
Otimizar a performance da consulta usando estatísticas de coluna - AWS Glue

Você pode calcular estatísticas em nível de coluna para tabelas do AWS Glue Data Catalog em formatos de dados como Parquet, ORC, JSON, ION, CSV e XML sem precisar configurar pipelines de dados adicionais. As estatísticas de colunas ajudam você a entender os perfis de dados obtendo insights sobre os valores em uma coluna.

O Catálogo de Dados possibilita a geração de estatísticas para valores de colunas, como valor mínimo, valor máximo, total de valores nulos, total de valores distintos, comprimento médio dos valores e ocorrências totais de valores reais. Os serviços analíticos da AWS, como o Amazon Redshift e o Amazon Athena, podem usar essas estatísticas de colunas para gerar planos de execução de consultas e escolher o plano ideal para melhorar a performance da consulta.

Há três cenários para a geração de estatísticas de colunas:

Auto

O AWS Glue oferece suporte à geração automática de estatísticas de colunas no nível do catálogo para que ele possa gerar automaticamente estatísticas para novas tabelas no AWS Glue Data Catalog.

Programado

O AWS Glue oferece suporte à programação da geração de estatísticas de coluna para que ela possa ser executada automaticamente em uma programação recorrente.

Com o cálculo de estatísticas programado, a tarefa de estatísticas de coluna atualiza as estatísticas gerais em nível de tabela, como mínimos, máximos e média, com as novas estatísticas, fornecendo aos mecanismos de consulta estatísticas precisas e atualizadas para otimizar a execução de consultas.

Sob demanda

Use essa opção para gerar estatísticas de coluna sob demanda sempre que necessário. Isso é útil para análises ad hoc ou quando as estatísticas precisam ser calculadas imediatamente.

É possível configurar para executar a tarefa de geração de estatísticas de coluna usando o console do AWS Glue, a AWS CLI ou a API do AWS Glue. Quando você inicia o processo, o AWS Glue inicia um trabalho do Spark em segundo plano e atualiza os metadados da tabela AWS Glue no Catálogo de Dados. Você pode visualizar as estatísticas da coluna usando o console do AWS Glue ou a AWS CLI ou chamando a operação da API GetColumnStatisticsForTable.

nota

Se você estiver usando as permissões do Lake Formation para controlar o acesso à tabela, o perfil assumido pela tarefa de estatísticas da coluna exigirá acesso total à tabela para gerar estatísticas.

O vídeo a seguir demonstra como aprimorar a performance da consulta usando estatísticas de colunas.

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.