Usar Aggregate para fazer cálculos resumidos em campos selecionados - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usar Aggregate para fazer cálculos resumidos em campos selecionados

Para usar a transformação Aggregate
  1. Adicione o nó Aggregate ao diagrama do trabalho.

  2. Na guia Node properties (Propriedades de nó), escolha campos para agrupar selecionando o campo suspenso (opcional). Você pode selecionar mais de um campo por vez ou procurar um nome de campo digitando na barra de pesquisa.

    Quando os campos são selecionados, o nome e o tipo de dados são mostrados. Para remover um campo, escolha "X" no campo.

    A captura de tela mostra a guia Transform (Transformação) para o nó Aggregate.
  3. Selecione Aggregate another column (Agregar outra coluna). É necessário selecionar pelo menos um campo.

    A captura de tela mostra os campos quando a opção Aggregate another column (Agregar outra coluna) é escolhida.
  4. Escolha um campo na lista suspensa Field to aggregate (Campo a ser agregado).

  5. Escolha a função de agregação a ser aplicada ao campo escolhido:

    • avg: calcula a média

    • CountDistinct: calcula o número de valores não nulos exclusivos

    • count: calcula o número de valores não nulos

    • first: retorna o primeiro valor que satisfaz os critérios "agrupar por"

    • last: retorna o último valor que satisfaz os critérios "agrupar por"

    • kurtosis: calcula a nitidez do pico de uma curva de distribuição de frequência

    • max: retorna o maior valor que satisfaz os critérios "agrupar por"

    • min: retorna o menor valor que satisfaz os critérios "agrupar por"

    • skewness: medida da assimetria da distribuição de probabilidade de uma distribuição normal

    • stddev_pop: calcula o desvio padrão da população e retorna a raiz quadrada da variância da população

    • sum: a soma de todos os valores no grupo

    • sumDistinct: a soma dos valores distintos no grupo

    • var_samp: a variância da amostra do grupo (ignora nulos)

    • var_pop: a variância da população do grupo (ignora nulos)