ColumnDataType - AWS Glue

ColumnDataType

Verifica o tipo de dados inerente dos valores em uma dada coluna em relação ao tipo esperado fornecido. Aceita uma expressão with threshold para verificar um subconjunto dos valores da coluna.

Sintaxe

ColumnDataType <COL_NAME> = <EXPECTED_TYPE>
  • COL_ NAME — O nome da coluna com a qual você deseja avaliar a regra de qualidade de dados.

    Tipos de coluna compatíveis: string

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

  • EXPECTED_ TYPE — O tipo esperado dos valores na coluna.

    Valores compatíveis: booleano, data, timestamp, inteiro, duplo, flutuante, longo

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

  • EXPRESSION— Uma expressão opcional para especificar a porcentagem de valores que devem ser do tipo esperado.

    Tipos de coluna compatíveis: byte, decimal, duplo, flutuante, inteiro, longo, curto

Exemplo: números inteiros do tipo de dados da coluna como strings

O exemplo de regra a seguir verifica se os valores da coluna da, que é do tipo string, são, na verdade, números inteiros.

ColumnDataType "colA" = "INTEGER"

Exemplo: números inteiros do tipo de dados da coluna como strings verificam um subconjunto dos valores

O exemplo de regra a seguir verifica se mais de 90% dos valores da coluna dada, que é do tipo string, são, na verdade, números inteiros.

ColumnDataType "colA" = "INTEGER" with threshold > 0.9