本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
總變化距離資料偏差指標 (TVD) 是 L1-範數的一半。TVD 是構面 a 和d 標籤結果的機率分布之間可能的最大差異。L1-範數是 Hamming 距離,透過確定將一個字串更改為另一個字串所需的最小替代數,比較兩個二進位資料字串的指標。如果這些字串是彼此的副本,它會決定複製時發生的錯誤數量。在偏置偵測環境中,TVD 會量化構面 a 必須變更多少個才能符合構面 d 的結果。
總變化距離的公式如下:
TVD = ½*L1(Pa, Pd)
例如,假設您在大學招生多類情況中具有三個類別的結果分布,yi = {y0, y1, y2} = {接受、候補清單、拒絕}。您可以根據每個結果的構面 a 和 d 計數之間的差異來計算 TVD。結果如下所示:
L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|
其中:
-
na(i) 是構面 a 中第 i 個類別結果的數目:例如 n a(0) 是構面 a 的接受數目。
-
nd(i) 是構面 d 中第 i 個類別結果的數目:例如 nd(2) 是構面 d 的拒絕數目。
二進位、多類別和連續性結果的 TVD 值範圍為 [0, 1),其中:
-
接近零的值表示標籤的分布類似。
-
正值表示標籤分布發散,正值越大發散越大。
-