Perbedaan Akurasi (AD) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Perbedaan Akurasi (AD)

Metrik perbedaan akurasi (AD) adalah perbedaan antara akurasi prediksi untuk berbagai aspek. Metrik ini menentukan apakah klasifikasi menurut model lebih akurat untuk satu aspek daripada yang lain. AD menunjukkan apakah satu aspek menimbulkan proporsi kesalahan Tipe I dan Tipe II yang lebih besar. Tetapi tidak dapat membedakan antara kesalahan Tipe I dan Tipe II. Misalnya, model mungkin memiliki akurasi yang sama untuk demografi usia yang berbeda, tetapi kesalahan mungkin sebagian besar positif palsu (kesalahan Tipe I) untuk satu kelompok berbasis usia dan sebagian besar negatif palsu (kesalahan Tipe II) untuk yang lain.

Juga, jika persetujuan pinjaman dibuat dengan akurasi yang jauh lebih tinggi untuk demografis paruh baya (aspek a) daripada demografis berbasis usia lainnya (aspek d), proporsi yang lebih besar dari pelamar yang memenuhi syarat di kelompok kedua ditolak pinjaman (FN) atau proporsi yang lebih besar dari pelamar yang tidak memenuhi syarat dari kelompok itu mendapatkan pinjaman (FP) atau keduanya. Hal ini dapat menyebabkan ketidakadilan kelompok untuk kelompok kedua, bahkan jika proporsi pinjaman yang diberikan hampir sama untuk kedua kelompok berbasis usia, yang ditunjukkan oleh nilai DPPL yang mendekati nol.

Rumus untuk metrik AD adalah perbedaan antara akurasi prediksi untuk facet a, ACC, dikurangi untuk facet da, ACC: d

        IKLAN = ACC a - ACC d

Di mana:

  • ACC a = (TP a + TNa)/(TP + a TN+FP+FNa) a a

    • TP a adalah positif sejati yang diprediksi untuk segi a

    • TN a adalah negatif sebenarnya yang diprediksi untuk segi a

    • FP a adalah positif palsu yang diprediksi untuk segi a

    • FN a adalah negatif palsu yang diprediksi untuk segi a

  • ACC d = (TP d + TNd)/(TP + d TN+FP+FNd) d d

    • TP d adalah positif sejati yang diprediksi untuk segi d

    • TN d adalah negatif sebenarnya yang diprediksi untuk segi d

    • FP d adalah positif palsu yang diprediksi untuk segi d

    • FN d adalah negatif palsu yang diprediksi untuk segi d

Misalnya, model menyetujui pinjaman kepada 70 pelamar dari segi a 100 dan menolak 30 lainnya. 10 seharusnya tidak ditawari pinjaman (FPa) dan 60 disetujui yang seharusnya (TP). 20 penolakan seharusnya disetujui (FNa) dan 10 ditolak dengan benar (TNa). a Akurasi untuk segi a adalah sebagai berikut:

        ACC a = (60 + 10)/(60 + 10 + 20 + 10) = 0,7

Selanjutnya, misalkan model menyetujui pinjaman kepada 50 pelamar dari segi d 100 dan menolak 50 lainnya. 10 seharusnya tidak ditawari pinjaman (FPa) dan 40 disetujui yang seharusnya (TPa). 40 penolakan seharusnya disetujui (FN) dan 10 ditolak dengan benar (TNa). a Keakuratan untuk faset a ditentukan sebagai berikut:

        ACC d = (40 + 10)/(40 + 10 + 40 + 10) = 0,5

Perbedaan akurasi dengan demikian AD = ACC a - ACC d = 0,7 - 0,5 = 0,2. Ini menunjukkan ada bias terhadap segi d karena metriknya positif.

Rentang nilai untuk AD untuk label faset biner dan multikategori adalah [-1, +1].

  • Nilai positif terjadi ketika akurasi prediksi untuk faset a lebih besar dari segi d. Ini berarti bahwa facet d lebih menderita dari beberapa kombinasi positif palsu (kesalahan Tipe I) atau negatif palsu (kesalahan Tipe II). Ini berarti ada bias potensial terhadap aspek yang tidak disukai d.

  • Nilai mendekati nol terjadi ketika akurasi prediksi untuk faset a mirip dengan faset d.

  • Nilai negatif terjadi ketika akurasi prediksi untuk faset d lebih besar dari segi a t. Ini berarti bahwa facet a lebih menderita dari beberapa kombinasi positif palsu (kesalahan Tipe I) atau negatif palsu (kesalahan Tipe II). Ini berarti bias terhadap aspek yang disukai a.