Jarak Variasi Total (TVD) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Jarak Variasi Total (TVD)

Metrik bias data jarak variasi total (TVD) adalah setengah dari 1 norma L. TVDIni adalah perbedaan terbesar yang mungkin antara distribusi probabilitas untuk hasil label dari segi a dan d. 1Norma L adalah jarak Hamming, metrik yang digunakan membandingkan dua string data biner dengan menentukan jumlah minimum substitusi yang diperlukan untuk mengubah satu string ke string lainnya. Jika string harus menjadi salinan satu sama lain, itu menentukan jumlah kesalahan yang terjadi saat menyalin. Dalam konteks deteksi bias, TVD mengukur berapa banyak hasil dalam aspek a yang harus diubah agar sesuai dengan hasil dalam segi d.

Rumus untuk Jarak variasi Total adalah sebagai berikut:

        TVD= ½ * L 1 (Pa, Pd)

Misalnya, asumsikan Anda memiliki distribusi hasil dengan tiga kategori, y i = {y0, y1, y2} = {diterima, daftar tunggu, ditolak}, dalam skenario multikategori penerimaan perguruan tinggi. Anda mengambil perbedaan antara hitungan segi a dan d untuk setiap hasil untuk dihitung. TVD Hasilnya adalah sebagai berikut:

        L 1 (Pa, Pd) = |n a (0) - n d (0) | + |n a (1) - n d (1) | + |n a (2) - n d (2) |

Di mana:

  • n a (i) adalah jumlah hasil kategori ith dalam segi a: misalnya n a (0) adalah jumlah faset a yang diterima.

  • n d (i) adalah jumlah hasil kategori ith dalam segi d: misalnya n d (2) adalah jumlah penolakan faset d.

    Rentang TVD nilai untuk hasil biner, multikategori, dan kontinu adalah [0, 1), di mana:

    • Nilai mendekati nol berarti label didistribusikan dengan cara yang sama.

    • Nilai positif berarti distribusi label menyimpang, semakin positif semakin besar divergensi.