Compilador de regras de qualidade de dados - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Compilador de regras de qualidade de dados

Com o criador de regras da Data Quality Definition Language (DQDL), você pode criar regras de qualidade de dados para avaliar seus dados. Comece selecionando um tipo de regra e depois especifique os parâmetros no editor de regras. O editor de regras também mostra erros e avisos à medida que você criar regras.

O guia do DQDL fornece documentação abrangente sobre como estruturar regras usando a sintaxe, os tipos e os exemplos de regras integradas do DQDL.

Nó Evaluate Data Quality

Ao trabalhar com o nó de transformação Evaluate Data Quality e o compilador de regras DQDL, você pode expandir o espaço de trabalho.

  • Para expandir a guia Transformar para preencher a tela inteira, escolha o ícone de expansão no canto superior direito do painel de detalhes do nó.

  • Para expandir o editor de regras DQDL, escolha o ícone << para expandir o editor de regras e fechar as guias Tipos de regras e Esquema.

    A captura de tela mostra um diagrama de trabalho com o nó Avaliar qualidade de dados.

Componentes

Existem 26 tipos de regras que são incorporados ao AWS Glue Studio. Cada tipo de regra tem uma descrição e exemplos de como elas podem ser usadas.

Tipos de regras de qualidade de dados

O AWS Glue Studio fornece tipos de regras integrados para facilitar a criação de uma regra. Para obter mais informações sobre tipos de regras, consulte Referência de tipos de regras DQDL.

Esquema

A guia Schema (Esquema) exibe os nomes das colunas e o tipo de dados do nó principal. Esquemas de vários nós são exibidos. Você pode visualizar o esquema de entrada, pesquisar pelo nome da coluna e inserir a coluna no editor de regras.

A captura de tela mostra o editor de regras com uma regra completa usando o tipo de regra Completeness.

Editor de regras

O editor de regras é um editor de texto em que você pode escrever e editar regras. Se você selecionar um tipo de regra no compilador de regras DQDL, o tipo de regra será adicionado ao editor de regras. Em seguida, você pode especificar parâmetros, adicionar regras e editar regras conforme necessário, modificando o texto. O AWS Glue Studio valida as regras no editor de regras e exibe erros e avisos, se houver.

Erros e advertências

Se uma regra não seguir a sintaxe da regra DQDL, o editor de regras mostra vários indicadores visuais de que há um erro:

  • O editor de regras exibe um ícone de erro e a linha com o erro em vermelho.

  • O editor de regras exibe o número de erros ao lado do ícone vermelho de erro.

  • Quando você escolhe a linha com o erro, uma descrição e o local (linha e coluna) do erro são exibidos na parte inferior do editor de regras.

A captura de tela mostra o editor de regras DQDL com indicadores de erro na linha 1 e na parte inferior do editor de regras com o número de erros. Abaixo está a descrição do erro.

Ações de qualidade de dados

Por padrão, essa ação não é selecionada e o trabalho concluirá sua execução mesmo se as regras de qualidade de dados falharem.

Escolha entre as ações a seguir. Você pode usar ações para publicar resultados no CloudWatch ou interromper trabalhos com base em critérios específicos. As ações só estarão disponíveis depois que você criar uma regra.

  • Publicar resultados no CloudWatch: ao executar um trabalho, adicione os resultados ao CloudWatch.

  • Reprovar o trabalho quando a qualidade dos dados for reprovada: se as regras de qualidade de dados forem reprovadas, o trabalho também será reprovado como resultado.

Saída da transformação Data quality

  • Dados originais: escolha a saída dos dados de entrada originais. Essa opção é ideal se você quiser interromper o trabalho quando problemas de qualidade forem detectados.

  • Métricas de qualidade de dados: opte pela saída das regras configuradas e o status de aprovação ou reprovação correspondente. Essa opção é útil se você quiser fazer uma ação personalizada.

Configurações de saída de qualidade de dados

Defina a localização do resultado de qualidade de dados especificando o local do Amazon S3 como o destino de saída de qualidade de dados.