Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
ColumnCorrelation
Verifica la correlazione tra due colonne rispetto a una determinata espressione. AWS Glue Data Quality utilizza il coefficiente di correlazione di Pearson per misurare la correlazione lineare tra due colonne. Il risultato è un numero compreso tra -1 e 1 che misura la forza e la direzione della relazione.
Sintassi
ColumnCorrelation
<COL_1_NAME>
<COL_2_NAME>
<EXPRESSION>
COL_1_ NAME — Il nome della prima colonna in base alla quale si desidera valutare la regola di qualità dei dati.
Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short
COL_2_ NAME — Il nome della seconda colonna in base alla quale si desidera valutare la regola di qualità dei dati.
Tipi di colonna supportati: Byte, Decimal, Double, Float, Integer, Long, Short
EXPRESSION— Un'espressione da eseguire in base alla risposta del tipo di regola per produrre un valore booleano. Per ulteriori informazioni, consulta Espressioni.
Esempio: correlazione tra colonne
La seguente regola di esempio verifica se il coefficiente di correlazione tra le colonne height
e weight
ha una forte correlazione positiva (un valore del coefficiente maggiore di 0,8).
ColumnCorrelation "height" "weight" > 0.8
ColumnCorrelation "weightinkgs" "Salary" > 0.8 where "weightinkgs > 40"
Regole dinamiche di esempio
ColumnCorrelation "colA" "colB" between min(last(10)) and max(last(10))
ColumnCorrelation "colA" "colB" < avg(last(5)) + std(last(5))
Comportamento nullo
La ColumnCorrelation
regola ignorerà le righe con NULL
valori nel calcolo della correlazione. Per esempio:
+---+-----------+ |id |units | +---+-----------+ |100|0 | |101|null | |102|20 | |103|null | |104|40 | +---+-----------+
Le righe 101 e 103 verranno ignorate e ColumnCorrelation
saranno 1,0.