Avaliar qualidade de dados com o AWS - AWS Glue

Avaliar qualidade de dados com o AWS

O AWS Glue Data Quality avalia e monitora a qualidade dos dados com base em regras que você define. Isso facilita a identificação dos dados que precisam de ação. No AWS Glue Studio, você pode adicionar nós de qualidade de dados ao trabalho visual para criar regras de qualidade de dados em tabelas no catálogo de dados. Você poderá, então, monitorar e avaliar as alterações nos conjuntos de dados à medida que eles evoluírem ao longo do tempo. Para obter uma visão geral de como trabalhar com a qualidade de dados do AWS Glue no AWS Glue Studio, veja o vídeo a seguir.

A seguir estão as etapas de alto nível de como você trabalha com o AWS Glue Data Quality:

  1. Criar regras de qualidade de dados: compile um conjunto de regras de qualidade de dados usando o compilador DQDL escolhendo conjuntos de regras integrados que você configura.

  2. Configurar um trabalho de qualidade de dados: defina ações com base nos resultados de qualidade de dados e nas opções de saída.

  3. Salvar e executar um trabalho com qualidade de dados: criar e executar um trabalho. Salvar o trabalho salvará os conjuntos de regras que você criou para o trabalho.

  4. Monitorar e analisar os resultados de qualidade dos dados: analise os resultados da qualidade dos dados após a conclusão da execução do trabalho. Opcionalmente, agende o trabalho para uma data futura.

Benefícios

Analistas de dados, engenheiros de dados e cientistas de dados podem usar o nó Evaluate Data Quality no AWS Glue Studio para analisar, configurar, monitorar e melhorar a qualidade dos dados do editor de trabalho visual. Os benefícios de usar o nó de qualidade de dados incluem:

  • Você pode detectar problemas de qualidade de dados: você pode verificar problemas criando regras que verificam as características dos seus conjuntos de dados.

  • É fácil começar: você pode começar com regras e ações pré-construídas.

  • Integração perfeita: você pode usar nós de qualidade de dados no AWS Glue Studio porque o AWS Glue Data Quality é executado em cima do catálogo de dados do AWS Glue.