Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Geração de estatísticas de colunas sob demanda

Modo de foco
Geração de estatísticas de colunas sob demanda - AWS Glue

Você pode executar a tarefa de estatísticas de coluna para a tarefa de AWS Glue Data Catalog tabelas sob demanda sem um cronograma definido. Essa opção é útil para análises ad hoc ou quando as estatísticas precisam ser calculadas imediatamente.

Siga estas etapas para gerar estatísticas de coluna sob demanda para as tabelas do Catálogo de Dados usando o AWS Glue console ou AWS CLI.

AWS Management Console
Para gerar estatísticas de colunas usando o console
  1. Faça login no AWS Glue console em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha Gerar estatísticas no menu Ações.

    Você também pode escolher a opção Gerar, Gerar sob demanda na guia Estatísticas da coluna na seção inferior da página Tabela.

  5. Siga as etapas 7 a 11 em Gerando estatísticas de colunas em um cronograma para gerar estatísticas de coluna para a tabela.

  6. Na página Gerar estatísticas, especifique as seguintes opções:

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

    • IAMfunção — Escolha Criar uma nova IAM função que tenha as políticas de permissão necessárias para executar a tarefa de geração de estatísticas da coluna. Escolha Exibir detalhes da permissão para revisar a declaração de política. Você também pode selecionar uma IAM função na lista. Para mais informações sobre as permissões necessárias, consulte Pré-requisitos para gerar estatísticas de colunas.

      AWS Glue assume as permissões da função que você especifica para gerar estatísticas.

      Para obter mais informações sobre o fornecimento de funções para AWS Glue, consulte Políticas baseadas em identidade para. AWS Glue.

    • (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

    • Linhas de exemplo: escolha somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

      nota

      Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

    Escolha Gerar estatísticas para executar a tarefa.

AWS CLI

Esse comando acionará a execução de uma tarefa de estatísticas de coluna para a tabela especificada. Você precisa fornecer o nome do banco de dados, o nome da tabela, uma IAM função com permissões para gerar estatísticas e, opcionalmente, fornecer os nomes das colunas e uma porcentagem do tamanho da amostra para o cálculo das estatísticas.

aws glue start-column-statistics-task-run \ --database-name 'database_name \ --table-name 'table_name' \ --role 'arn:aws:iam::123456789012:role/stats-role' \ --column-name 'col1','col2' \ --sample-size 10.0

Esse comando iniciará uma tarefa para gerar estatísticas de coluna para a tabela especificada.

Para gerar estatísticas de colunas usando o console
  1. Faça login no AWS Glue console em https://console.aws.amazon.com/glue/.

  2. Escolha uma tabela do Catálogo de Dados.

  3. Escolha uma tabela na lista.

  4. Escolha Gerar estatísticas no menu Ações.

    Você também pode escolher a opção Gerar, Gerar sob demanda na guia Estatísticas da coluna na seção inferior da página Tabela.

  5. Siga as etapas 7 a 11 em Gerando estatísticas de colunas em um cronograma para gerar estatísticas de coluna para a tabela.

  6. Na página Gerar estatísticas, especifique as seguintes opções:

    A captura de tela mostra as opções disponíveis para gerar estatísticas da coluna.
    • Todas as colunas: escolha essa opção para gerar estatísticas para todas as colunas na tabela.

    • Colunas selecionadas: escolha essa opção para gerar estatísticas para colunas específicas. É possível selecionar as colunas na lista suspensa.

    • IAMfunção — Escolha Criar uma nova IAM função que tenha as políticas de permissão necessárias para executar a tarefa de geração de estatísticas da coluna. Escolha Exibir detalhes da permissão para revisar a declaração de política. Você também pode selecionar uma IAM função na lista. Para mais informações sobre as permissões necessárias, consulte Pré-requisitos para gerar estatísticas de colunas.

      AWS Glue assume as permissões da função que você especifica para gerar estatísticas.

      Para obter mais informações sobre o fornecimento de funções para AWS Glue, consulte Políticas baseadas em identidade para. AWS Glue.

    • (Opcional) Em seguida, escolha uma configuração de segurança para ativar a criptografia em repouso para logs.

    • Linhas de exemplo: escolha somente uma porcentagem específica de linhas da tabela para gerar estatísticas. O padrão é todas as linhas. Use as setas para cima e para baixo para aumentar ou diminuir o valor percentual.

      nota

      Recomendamos incluir todas as linhas na tabela para calcular estatísticas precisas. Use as linhas de exemplo para gerar estatísticas de coluna somente quando valores aproximados forem aceitáveis.

    Escolha Gerar estatísticas para executar a tarefa.

Atualizando estatísticas de colunas sob demanda

Manter as estatísticas das up-to-date colunas é crucial para que o otimizador de consultas gere planos de execução eficientes, garantindo melhor desempenho da consulta, menor consumo de recursos e melhor desempenho geral do sistema. Esse processo é particularmente importante após alterações significativas nos dados, como cargas em massa ou modificações extensivas, que podem tornar obsoletas as estatísticas existentes.

Você precisa executar explicitamente a tarefa Gerar estatísticas no AWS Glue console para atualizar as estatísticas da coluna. O Catálogo de Dados não atualiza as estatísticas automaticamente.

Se você não estiver usando o recurso AWS Glue de geração de estatísticas do console, poderá atualizar manualmente as estatísticas da coluna usando a UpdateColumnStatisticsForTableAPIoperação ou AWS CLI. O exemplo a seguir mostra como excluir estatísticas de colunas usando a AWS CLI.

aws glue update-column-statistics-for-table --cli-input-json: { "CatalogId": "111122223333", "DatabaseName": "database_name", "TableName": "table_name", "ColumnStatisticsList": [ { "ColumnName": "col1", "ColumnType": "Boolean", "AnalyzedTime": "1970-01-01T00:00:00", "StatisticsData": { "Type": "BOOLEAN", "BooleanColumnStatisticsData": { "NumberOfTrues": 5, "NumberOfFalses": 5, "NumberOfNulls": 0 } } } ] }
PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.