As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Otimizar a performance da consulta usando estatísticas de coluna
Você pode calcular estatísticas em nível de coluna para AWS Glue Data Catalog tabelas em formatos de dados como Parquet,,,, ORC JSON IONCSV, e XML sem configurar pipelines de dados adicionais. As estatísticas de colunas ajudam você a entender os perfis de dados obtendo insights sobre os valores em uma coluna.
O Catálogo de Dados suporta a geração de estatísticas para valores de coluna, como valor mínimo, valor máximo, valores nulos totais, valores distintos totais, comprimento médio dos valores e ocorrências totais de valores reais. AWS serviços analíticos, como o Amazon Redshift, Amazon Athena podem usar essas estatísticas de coluna para gerar planos de execução de consultas e escolher o plano ideal que melhore o desempenho da consulta.
Há dois cenários para gerar estatísticas de colunas:
- Programado
AWS Glue suporta a geração de estatísticas da coluna de agendamento para que ela possa ser executada automaticamente em uma programação recorrente.
Com o cálculo de estatísticas agendadas, a tarefa de estatísticas da coluna atualiza as estatísticas gerais em nível de tabela, como min, max e avg, com as novas estatísticas, fornecendo aos mecanismos de consulta estatísticas precisas para otimizar a execução up-to-date da consulta.
- Sob demanda
Use essa opção para gerar estatísticas de coluna sob demanda sempre que necessário. Isso é útil para análises ad hoc ou quando as estatísticas precisam ser calculadas imediatamente.
Você pode configurar para executar a tarefa de geração de estatísticas de coluna usando AWS Glue API as operações de AWS Glue console e e. AWS CLI Ao iniciar o processo, AWS Glue inicia um trabalho do Spark em segundo plano e atualiza os metadados da AWS Glue tabela no Catálogo de Dados. Você pode visualizar as estatísticas da coluna usando o AWS Glue console AWS CLI ou chamando a GetColumnStatisticsForTableAPIoperação.
nota
Se você estiver usando as permissões do Lake Formation para controlar o acesso à tabela, o perfil assumido pela tarefa de estatísticas da coluna exigirá acesso total à tabela para gerar estatísticas.
O vídeo a seguir demonstra como aprimorar a performance da consulta usando estatísticas de colunas.
Tópicos
- Pré-requisitos para gerar estatísticas de colunas
- Gerando estatísticas de colunas em um cronograma
- Geração de estatísticas de colunas sob demanda
- Visualizar estatísticas de colunas
- Visualizar as execuções de tarefas de estatísticas de colunas
- Interromper a execução da tarefa de estatísticas de coluna
- Excluir estatísticas de colunas
- Considerações e limitações