Geração de estatísticas de colunas sob demanda - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Geração de estatísticas de colunas sob demanda

Você pode executar a tarefa de estatísticas de coluna para a tarefa de AWS Glue Data Catalog tabelas sob demanda sem um cronograma definido. Essa opção é útil para análises ad hoc ou quando as estatísticas precisam ser calculadas imediatamente.

Siga estas etapas para gerar estatísticas de coluna sob demanda para as tabelas do Catálogo de Dados usando o AWS Glue console ou AWS CLI.

AWS Management Console
Para gerar estatísticas de colunas usando o console
  1. Faça login no AWS Glue console em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha Gerar estatísticas no menu Ações.

    Você também pode escolher a opção Gerar, Gerar sob demanda na guia Estatísticas da coluna na seção inferior da página Tabela.

  5. Siga as etapas 7 a 11 em Gerando estatísticas de colunas em um cronograma para gerar estatísticas de coluna para a tabela.

  6. Na página Gerar estatísticas, especifique as seguintes opções:

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

    • IAMfunção — Escolha Criar uma nova IAM função que tenha as políticas de permissão necessárias para executar a tarefa de geração de estatísticas da coluna. Escolha Exibir detalhes da permissão para revisar a declaração de política. Você também pode selecionar uma IAM função na lista. Para mais informações sobre as permissões necessárias, consulte Pré-requisitos para gerar estatísticas de colunas.

      AWS Glue assume as permissões da função que você especifica para gerar estatísticas.

      Para obter mais informações sobre o fornecimento de funções para AWS Glue, consulte Políticas baseadas em identidade para. AWS Glue.

    • (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

    • Linhas de exemplo: escolha somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

      nota

      Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

    Escolha Gerar estatísticas para executar a tarefa.

AWS CLI

Esse comando acionará a execução de uma tarefa de estatísticas de coluna para a tabela especificada. Você precisa fornecer o nome do banco de dados, o nome da tabela, uma IAM função com permissões para gerar estatísticas e, opcionalmente, fornecer os nomes das colunas e uma porcentagem do tamanho da amostra para o cálculo das estatísticas.

aws glue start-column-statistics-task-run \ --database-name 'database_name \ --table-name 'table_name' \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --column-name 'col1','col2' \ --sample-size 10.0

Esse comando iniciará uma tarefa para gerar estatísticas de coluna para a tabela especificada.

Atualizando estatísticas de colunas sob demanda

Manter as estatísticas das up-to-date colunas é crucial para que o otimizador de consultas gere planos de execução eficientes, garantindo melhor desempenho da consulta, menor consumo de recursos e melhor desempenho geral do sistema. Esse processo é particularmente importante após alterações significativas nos dados, como cargas em massa ou modificações extensivas, que podem tornar obsoletas as estatísticas existentes.

Você precisa executar explicitamente a tarefa Gerar estatísticas no AWS Glue console para atualizar as estatísticas da coluna. O Catálogo de Dados não atualiza as estatísticas automaticamente.

Se você não estiver usando o recurso AWS Glue de geração de estatísticas do console, poderá atualizar manualmente as estatísticas da coluna usando a UpdateColumnStatisticsForTableAPIoperação ou AWS CLI. O exemplo a seguir mostra como excluir estatísticas de colunas usando a AWS CLI.

aws glue update-column-statistics-for-table --cli-input-json: { "CatalogId": "111122223333", "DatabaseName": "database_name", "TableName": "table_name", "ColumnStatisticsList": [ { "ColumnName": "col1", "ColumnType": "Boolean", "AnalyzedTime": "1970-01-01T00:00:00", "StatisticsData": { "Type": "BOOLEAN", "BooleanColumnStatisticsData": { "NumberOfTrues": 5, "NumberOfFalses": 5, "NumberOfNulls": 0 } } } ] }