Como configurar a detecção de anomalias e gerar insights - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Como configurar a detecção de anomalias e gerar insights

O AWS Glue Data Quality (DQ) avalia seus dados com base nas regras de qualidade de dados que você grava e fornece insights e observações sobre seus dados ao longo do tempo para que você possa executar ações imediatas. Como o DQ verifica seus dados, ele calcula métricas estatísticas, como contagem de linhas, máximo ou mínimo, e as compara com expressões de limite.

Alguns dos benefícios da detecção de anomalias do Data Quality incluem:

  • verificação automática contínua de dados;

  • detecção de anomalias que podem ser indicativas de um evento não intencional ou anormalidade estatística;

  • fornecimento de recomendações de regras para agir com relação às observações encontradas pela detecção de anomalias no Data Quality.

Isso é útil se você deseja:

  • detectar automaticamente anomalias em seus dados, sem a necessidade de gravar uma qualidade de dados;

  • criar um perfil de dados e visualizar representações visuais da aparência dos dados;

  • acompanhar como seus dados mudam ao longo do tempo.

Quais observações sobre meus dados posso ver?

O DQ identifica valores discrepantes nas estatísticas de dados coletadas, mudanças nos formatos de dados, desvios de dados e mudanças no esquema. Com base em observações, o DQ recomenda regras de qualidade de dados que os usuários possam operacionalizar facilmente. As estatísticas incluem integridade, exclusividade, média, soma StandardDeviation, entropia e. DistinctValuesCount UniqueValueRatio

Como habilitar a detecção de anomalias no AWS Glue Studio

Para habilitar a detecção de anomalias, você pode abrir um trabalho do AWS Glue Studio e ativar a opção “Habilitar detecção de anomalias”. Ativar essa opção permite a detecção de anomalias em seus dados, analisando-os ao longo do tempo e fornecendo estatísticas de dados sobre seus dados e observações com base nas quais você pode agir.

Para habilitar a detecção de anomalias no AWS Glue Studio:
  1. Escolha o nó do Data Quality em seu trabalho e, em seguida, escolha a guia Detecção de anomalias. Ative a opção “Habilitar detecção de anomalias”.

    A captura de tela mostra a opção “Habilitar detecção de anomalias” ativada.
  2. Defina os dados para monitorar anomalias ao escolher Adicionar analisador. Há dois campos que você pode preencher: Estatísticas e Dados.

    O campo “Estatísticas” refere-se a informações sobre a forma e outras propriedades dos dados. É possível escolher uma ou mais estatísticas por vez ou escolher todas as estatísticas. As estatísticas incluem: integridade, exclusividade, média, soma StandardDeviation, entropia e. DistinctValuesCount UniqueValueRatio

    O campo “Dados” refere-se às colunas no seu conjunto de dados. Você pode escolher todas as colunas ou colunas individuais.

    A captura de tela mostra os campos “Estatísticas” e “Dados”. Você pode escolher quais estatísticas deseja aplicar ao seu conjunto de dados e em quais colunas.
  3. Escolha Adicionar escopo de detecção de anomalias para salvar as alterações. Depois de criar analisadores, você pode vê-los na seção Escopo de detecção de anomalias.

    Você também pode usar o menu Ações para editar seus analisadores ou escolher a guia Editor de conjunto de regras e editar o analisador diretamente no bloco de notas do editor de conjunto de regras. Você verá os analisadores salvos logo abaixo de todas as regras criadas.

    Rules = [ ] Analyzers = [ Completeness “id” ]

    Com o conjunto de regras atualizado junto com os analisadores, o Data Quality monitora continuamente os dados recebidos, sinalizando anomalias por meio de alertas ou paradas de trabalho com base em suas configurações.

nota

As observações são geradas quando um mínimo de três valores por estatística de dados são observados em seu conjunto de dados. Se não houver observações visíveis, o Data Quality não tem dados suficientes para gerar uma observação. Depois de vários trabalhos executados, o Data Quality pode fornecer informações sobre seus dados e os exibirá na seção Observações.

Os analisadores geram observações detectando anomalias em seus dados e fornecem recomendações para criar regras progressivamente. É possível visualizar as observações ao escolher a guia Data Quality. As observações são específicas para cada execução de trabalho. Você pode visualizar o nó específico do Data Quality e a execução do trabalho na parte superior da seção Observações. Escolha um novo nó ou execução de trabalho para visualizar observações específicas desse nó e trabalho.

A captura de tela mostra a guia Data Quality de um trabalho e as observações que são apresentadas para a execução do trabalho.

Observação: cada insight é baseado em uma execução de trabalho específica configurada pelos conjuntos de regras e analisadores que você especificou.

Métricas relacionadas: quando as observações são geradas, a coluna “Métricas relacionadas” mostra a regra e os valores reais e esperados, bem como os limites inferior e superior.

Recomendações de regras: em seguida, o AWS Glue também recomenda regras para resolver essa questão. Cada regra recomendada pode ser copiada clicando no ícone de cópia. Você pode copiar todas as regras recomendadas clicando no ícone de cópia ao lado de cada regra e clicando em Aplicar regras copiadas.

Dados monitorados: a coluna “Dados monitorados” fornece a coluna ou a linha que foi monitorada e acionou a observação.

Depois que uma observação for gerada e uma regra recomendada for fornecida, você poderá aplicar essa regra ao seu nó de qualidade de dados. Para fazer isso:

  1. Clique no ícone de cópia ao lado de cada recomendação de regra. Isso adicionará a recomendação da regra a um bloco de notas que você poderá recuperar posteriormente.

  2. Clique em Aplicar recomendações de regras. Isso abre o bloco de notas onde você pode ver as regras que você copiou anteriormente.

  3. Escolha Copiar regras.

  4. Escolha Aplicar ao editor de conjunto de regras. Essa ação abre o editor de conjunto de regras em que você pode colar as regras copiadas.

  5. Cole as regras copiadas no editor do conjunto de regras.