Perbedaan Proporsi Positif pada Label Prediksi (DPPL) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbedaan Proporsi Positif pada Label Prediksi (DPPL)

Perbedaan proporsi positif dalam metrik label prediksi (DPPL) menentukan apakah model memprediksi hasil secara berbeda untuk setiap aspek. Ini didefinisikan sebagai perbedaan antara proporsi prediksi positif (y' = 1) untuk segi a dan proporsi prediksi positif (y' = 1) untuk segi d. Misalnya, jika prediksi model memberikan pinjaman kepada 60% dari kelompok paruh baya (aspek a) dan 50% kelompok usia lainnya (segi d), itu mungkin bias terhadap aspek d. Dalam contoh ini, Anda harus menentukan apakah perbedaan 10% material untuk kasus bias.

Perbandingan perbedaan proporsi label (DPL), ukuran bias pra-pelatihan, dengan DPPL, ukuran bias pasca-pelatihan, menilai apakah bias dalam proporsi positif yang awalnya ada dalam dataset berubah setelah pelatihan. Jika DPPL lebih besar dari DPL, maka bias dalam proporsi positif meningkat setelah pelatihan. Jika DPPL lebih kecil dari DPL, model tidak meningkatkan bias dalam proporsi positif setelah pelatihan. Membandingkan DPL terhadap DPPL tidak menjamin bahwa model mengurangi bias di sepanjang semua dimensi. Misalnya, model mungkin masih bias saat mempertimbangkan metrik lain seperti Fliptest Kontrafaktual (FT) atau. Perbedaan Akurasi (AD) Untuk informasi selengkapnya tentang deteksi bias, lihat posting blog Pelajari cara Amazon SageMaker Clarify membantu mendeteksi bias. Lihat Perbedaan Proporsi Label (DPL) untuk informasi lebih lanjut tentang DPL.

Rumus untuk DPPL adalah:

        DPPL = q' - q' a d

Di mana:

  • q' a = n' a (1) /n a adalah proporsi prediksi dari segi a yang mendapatkan hasil positif dari nilai 1. Dalam contoh kami, proporsi aspek paruh baya diprediksi akan diberikan pinjaman. Di sini n' a (1) mewakili jumlah anggota faset a yang mendapatkan hasil prediksi positif dari nilai 1 dan n a adalah jumlah anggota faset a.

  • q' d = n' d (1) /n d adalah proporsi prediksi dari segi d yang mendapatkan hasil positif dari nilai 1. Dalam contoh kita, aspek orang tua dan muda diprediksi akan diberikan pinjaman. Di sini n' d (1) mewakili jumlah anggota segi d yang mendapatkan hasil prediksi positif dan n d adalah jumlah anggota segi d.

Jika DPPL cukup dekat dengan 0, itu berarti paritas demografis pasca-pelatihan telah tercapai.

Untuk label faset biner dan multikategori, nilai DPL yang dinormalisasi berkisar pada interval [-1, 1]. Untuk label kontinu, nilainya bervariasi selama interval (-∞, +∞).

  • Nilai DPPL positif menunjukkan bahwa faset a memiliki proporsi hasil positif yang diprediksi lebih tinggi jika dibandingkan dengan segi d.

    Ini disebut sebagai bias positif.

  • Nilai DPPL mendekati nol menunjukkan proporsi yang lebih sama dari hasil positif yang diprediksi antara aspek a dan d dan nilai nol menunjukkan paritas demografis yang sempurna.

  • Nilai DPPL negatif menunjukkan bahwa faset d memiliki proporsi hasil positif yang diprediksi lebih tinggi jika dibandingkan dengan faset a. Ini disebut sebagai bias negatif.