Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Metrik bias data jarak variasi total (TVD) adalah setengah dari norma L1. TVD adalah perbedaan terbesar yang mungkin antara distribusi probabilitas untuk hasil label dari segi a dan d. 1Norma L adalah jarak Hamming, metrik yang digunakan membandingkan dua string data biner dengan menentukan jumlah minimum substitusi yang diperlukan untuk mengubah satu string ke string lainnya. Jika string harus menjadi salinan satu sama lain, itu menentukan jumlah kesalahan yang terjadi saat menyalin. Dalam konteks deteksi bias, TVD mengukur berapa banyak hasil dalam segi a yang harus diubah agar sesuai dengan hasil dalam segi d.
Rumus untuk Jarak variasi Total adalah sebagai berikut:
TVD = ½ * L 1 (Pa, P) d
Misalnya, asumsikan Anda memiliki distribusi hasil dengan tiga kategori, y i = {y0, y1, y2} = {diterima, daftar tunggu, ditolak}, dalam skenario multikategori penerimaan perguruan tinggi. Anda mengambil perbedaan antara jumlah aspek a dan d untuk setiap hasil untuk menghitung TVD. Hasilnya adalah sebagai berikut:
L 1 (Pa, Pd) = |n a (0) - n d (0) | + |n a (1) - n d (1) | + |n a (2) - n d (2) |
Di mana:
-
n a (i) adalah jumlah hasil kategori ith dalam segi a: misalnya n a (0) adalah jumlah faset a yang diterima.
-
n d (i) adalah jumlah hasil kategori ith dalam segi d: misalnya n d (2) adalah jumlah penolakan faset d.
Rentang nilai TVD untuk hasil biner, multikategori, dan kontinu adalah [0, 1), di mana:
-
Nilai mendekati nol berarti label didistribusikan dengan cara yang sama.
-
Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.
-