ColumnCorrelation - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

ColumnCorrelation

Verifica la correlazione tra due colonne rispetto a una determinata espressione. AWS Glue Data Quality utilizza il coefficiente di correlazione di Pearson per misurare la correlazione lineare tra due colonne. Il risultato è un numero compreso tra -1 e 1 che misura la forza e la direzione della relazione.

Sintassi

ColumnCorrelation <COL_1_NAME> <COL_2_NAME> <EXPRESSION>
  • COL_1_ NAME — Il nome della prima colonna in base alla quale si desidera valutare la regola di qualità dei dati.

    Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short

  • COL_2_ NAME — Il nome della seconda colonna in base alla quale si desidera valutare la regola di qualità dei dati.

    Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short

  • EXPRESSION— Un'espressione da eseguire in base alla risposta del tipo di regola per produrre un valore booleano. Per ulteriori informazioni, consulta Espressioni.

Esempio: correlazione tra colonne

La seguente regola di esempio verifica se il coefficiente di correlazione tra le colonne height e weight ha una forte correlazione positiva (un valore del coefficiente maggiore di 0,8).

ColumnCorrelation "height" "weight" > 0.8
ColumnCorrelation "weightinkgs" "Salary" > 0.8 where "weightinkgs > 40"

Regole dinamiche di esempio

  • ColumnCorrelation "colA" "colB" between min(last(10)) and max(last(10))

  • ColumnCorrelation "colA" "colB" < avg(last(5)) + std(last(5))

Comportamento nullo

La ColumnCorrelation regola ignorerà le righe con NULL valori nel calcolo della correlazione. Per esempio:

+---+-----------+ |id |units | +---+-----------+ |100|0 | |101|null | |102|20 | |103|null | |104|40 | +---+-----------+

Le righe 101 e 103 verranno ignorate e ColumnCorrelation saranno 1,0.