AWS Glue Qualidade de dados - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Glue Qualidade de dados

AWS Glue A qualidade dos dados permite medir e monitorar a qualidade dos seus dados para que você possa tomar boas decisões comerciais. Construído com base na DeeQu estrutura de código aberto, o AWS Glue Data Quality fornece uma experiência gerenciada e sem servidor. AWS Glue A Qualidade de Dados funciona com a Linguagem de Definição de Qualidade de Dados (DQDL), que é uma linguagem específica de domínio que você usa para definir regras de qualidade de dados. Para saber mais sobre a DQDL e os tipos de regras compatíveis, consulte Referência de Data Quality Definition Language (DQDL).

Para detalhes adicionais sobre o produto e os preços, consulte a página de serviços do AWS Glue Data Quality.

Benefícios e principais atributos

Os benefícios e os principais recursos da qualidade de AWS Glue dados incluem:

  • Tecnologia sem servidor: não requer instalação, correção nem manutenção.

  • Comece rapidamente — o AWS Glue Data Quality analisa rapidamente seus dados e cria regras de qualidade de dados para você. Você pode começar com dois cliques: “Criar regras de qualidade de dados → Recomendar regras”.

  • Detecte problemas de qualidade de dados — Use o aprendizado de máquina (ML) para detectar anomalias e problemas de qualidade hard-to-detect de dados.

  • Improvise suas regras — com mais de 25 regras de out-of-the-box DQ para começar, você pode criar regras que atendam às suas necessidades específicas.

  • Avalie a qualidade e tome decisões comerciais confiáveis: depois de avaliar as regras, você obtém uma pontuação de qualidade de dados que fornece uma visão geral da integridade dos dados. Use a pontuação de qualidade de dados para tomar decisões de negócios confiáveis.

  • Concentre-se em dados incorretos — A qualidade de AWS Glue dados ajuda você a identificar os registros exatos que causaram a queda de seus índices de qualidade. Identifique-os facilmente, coloque-os em quarentena e corrija-os.

  • Pague conforme o uso — Não há licenças anuais necessárias para usar o AWS Glue Data Quality.

  • Sem restrições — o AWS Glue Data Quality é baseado em código aberto DeeQu, permitindo que você mantenha as regras que você está criando em uma linguagem aberta.

  • Verificações de qualidade de AWS Glue dados — Qualidade de dados Você pode aplicar verificações de qualidade de dados em Data Catalog pipelines de AWS Glue ETL, permitindo gerenciar a qualidade dos dados em repouso e em trânsito.

  • Detecção de qualidade de dados baseada em ML — Use o aprendizado de máquina (ML) para detectar anomalias e hard-to-detect problemas de qualidade de dados.

Como funciona

Há dois pontos de entrada para qualidade AWS Glue de dados: as tarefas AWS Glue Data Catalog e AWS Glue ETL. Esta seção fornece uma visão geral dos casos de uso e dos AWS Glue recursos que cada ponto de entrada suporta.

Qualidade de dados para o AWS Glue Data Catalog

AWS Glue A qualidade de dados avalia objetos armazenados no. AWS Glue Data Catalog Ela oferece aos não codificadores uma maneira fácil de configurar regras de qualidade de dados. Essas pessoas incluem administradores de dados e analistas de negócios.

Você pode escolher essa opção para os seguintes casos de uso:

  • Você deseja realizar tarefas de qualidade de dados em conjuntos de dados que já catalogou no AWS Glue Data Catalog.

  • Você trabalha com governança de dados e precisa identificar ou avaliar problemas de qualidade de dados no data lake de forma constante.

Você pode gerenciar a qualidade dos dados do catálogo de dados usando as seguintes interfaces:

  • O console AWS Glue de gerenciamento

  • AWS Glue APIs

Para começar com AWS Glue Data Quality for the AWS Glue Data Catalog seeIntrodução ao AWS Glue Data Quality para o Data Catalog.

Qualidade de dados para trabalhos AWS Glue de ETL

AWS Glue A qualidade de dados para trabalhos de AWS Glue ETL permite que você execute tarefas proativas de qualidade de dados. As tarefas proativas ajudam você a identificar e filtrar dados insatisfatórios antes de carregar um conjunto de dados no data lake.

Você pode escolher a qualidade dos dados para trabalhos de ETL para os seguintes casos de uso:

  • Você deseja incorporar tarefas de qualidade de dados nos trabalhos de ETL

  • Você deseja escrever um código que defina tarefas de qualidade de dados em scripts de ETL

  • Você quer gerenciar a qualidade dos dados que fluem pelos pipelines de dados visuais

Você pode gerenciar a qualidade dos dados para trabalhos de ETL usando as seguintes interfaces:

  • AWS Glue Studio, AWS Glue Studio cadernos e sessões AWS Glue interativas

  • AWS Glue bibliotecas para scripts ETL

  • AWS Glue APIs

Para começar com a qualidade de dados para trabalhos de ETL, consulte Tutorial: Getting started with Data Quality no AWS Glue Studio User Guide.

Comparar a qualidade dos dados do catálogo de dados com a qualidade dos dados dos trabalhos de ETL

Esta tabela fornece uma visão geral dos recursos que cada ponto de entrada da Qualidade de AWS Glue Dados suporta.

Atributo Qualidade dos dados para o catálogo de dados Qualidade de dados para trabalhos de ETL
Fontes de dados Amazon S3, Amazon Redshift, fontes JDBC compatíveis com o catálogo de dados e formatos de data lakes transacionais, como Apache Iceberg, Apache Hudi e Delta Lake. Observe que, se as tabelas forem AWS Lake Formation gerenciadas, as tabelas Iceberg, Delta e HUDI não serão suportadas. Amazon Athena as visualizações que estão catalogadas em não AWS Glue Data Catalog são suportadas. Todas as fontes de dados suportadas pela AWS Glue, incluindo conectores personalizados e conectores de terceiros.
Recomendações de regras de qualidade de dados Compatível Sem compatibilidade
Criar e executar regras DQDL Compatível Compatível
Ajuste de escala automático Não compatível Compatível
AWS Glue Suporte Flex Não compatível Compatível
Programação Compatível ao avaliar regras de qualidade de dados e por meio do Step Functions. Compatível com o uso do Step Functions e fluxos de trabalho.
Identificação de registros que falharam nas verificações de qualidade de dados Não compatível Compatível
Integração com o Amazon EventBridge Compatível Compatível
Integração com o AWS Cloudwatch Compatível Compatível
Gravar resultados de qualidade de dados no Amazon S3 Compatível Compatível
Qualidade incremental dos dados Compatível por meio dos predicados de pushdown Compatível por meio de AWS Glue favoritos
AWS CloudFormation apoio Compatível Compatível
Detecção de anomalias baseada em ML Sem compatibilidade Demonstração
Regras dinâmicas Não compatível Compatível

Considerações

Considere os seguintes itens antes de usar a Qualidade de AWS Glue dados:

  • As regras de qualidade de dados não podem avaliar fontes de dados aninhadas ou do tipo lista. Consulte Nivelar structs aninhados.

Terminologia

A lista a seguir define termos relacionados à qualidade AWS Glue dos dados.

Data Quality Definition Language (DQDL)

Uma linguagem específica do domínio que você pode usar para escrever regras de qualidade de AWS Glue dados.

Para saber mais sobre DQDL, consulte o guia de Referência de Data Quality Definition Language (DQDL).

qualidade de dados

Descreve o quão bem um conjunto de dados atende a sua finalidade específica. AWS Glue A qualidade de dados avalia as regras em relação a um conjunto de dados para medir a qualidade dos dados. Cada regra verifica características específicas, como atualidade ou integridade dos dados. Para quantificar a qualidade dos dados, você pode usar uma pontuação de qualidade de dados.

pontuação de qualidade e dados

A porcentagem de regras de qualidade de dados aprovadas (resultam em verdadeiras) quando você avalia um conjunto de regras com Qualidade de AWS Glue dados.

regra

Uma expressão DQDL que verifica os dados em busca de uma característica específica e retorna um valor booliano. Para ter mais informações, consulte Estrutura da regra.

analisador

Uma expressão de DQDL que reúne estatísticas de dados. Um analisador reúne estatísticas de dados que podem ser usadas por algoritmos de ML para detectar anomalias e problemas de qualidade de hard-to-detect dados ao longo do tempo.

conjunto de regras

Um AWS Glue recurso que compreende um conjunto de regras de qualidade de dados. Um conjunto de regras deve estar associado a uma tabela no AWS Glue Data Catalog. Ao salvar um conjunto de regras, o AWS Glue atribui nome do recurso da Amazon (ARN) ao conjunto de regras.

pontuação de qualidade e dados

A porcentagem de regras de qualidade de dados aprovadas (resultam em verdadeiras) quando você avalia um conjunto de regras com o AWS Glue Data Quality.

observação

Um insight não confirmado gerado pelo AWS Glue pela análise de estatísticas de dados coletadas de regras e analisadores ao longo do tempo.

Limites

AWS Glue Limites do serviço de qualidade de dados:

  • Você pode ter 2000 regras em um conjunto de regras. Se seus conjuntos de regras forem maiores, recomendamos dividi-los em vários conjuntos de regras.

  • O tamanho do conjunto de regras é 65 KB. Se seus conjuntos de regras forem maiores, recomendamos dividi-los em vários conjuntos de regras.

Notas de lançamento do AWS Glue Data Quality

Este tópico descreve os recursos introduzidos na Qualidade de AWS Glue dados.

Disponibilidade geral: novos atributos

Os seguintes novos recursos estão disponíveis com a disponibilidade geral da Qualidade de AWS Glue Dados:

  • A capacidade de identificar quais registros falharam nas verificações de qualidade de dados agora é suportada no AWS Glue Studio

  • Novos tipos de regras de qualidade de dados, como validação da integridade referencial de dados entre dois conjuntos de dados, comparação de dados entre dois conjuntos de dados e verificações de tipos de dados

  • Experiência de usuário aprimorada no AWS Glue Data Catalog

  • Compatibilidade com o Apache Iceberg, o Apache Hudi e o Delta Lake

  • Compatibilidade com o Amazon Redshift

  • Notificação simplificada com a Amazon EventBridge

  • AWS CloudFormation suporte para criar conjuntos de regras

  • Melhorias no desempenho: opção de armazenamento em cache no ETL e AWS Glue Studio para um desempenho mais rápido ao avaliar a qualidade dos dados

27 de novembro de 2023 (pré-visualização)

12 de março de 2024

26 de junho de 2024

  • Melhorias em DQDL

    • O DQDL agora suporta a cláusula where para que você possa filtrar dados antes de aplicar as regras do DQ