Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Studi kasus
Bagian ini meneliti skenario bisnis dunia nyata dan aplikasi untuk mengukur ketidakpastian dalam sistem pembelajaran mendalam. Misalkan Anda ingin model pembelajaran mesin untuk secara otomatis menilai apakah kalimat tidak dapat diterima secara tata bahasa (kasus negatif) atau dapat diterima (kasus positif). Pertimbangkan proses bisnis berikut: Jika model menandai kalimat yang dapat diterima secara gramatikal (positif), Anda memprosesnya secara otomatis, tanpa tinjauan manusia. Jika model menandai kalimat sebagai tidak dapat diterima (negatif), Anda memberikan kalimat kepada manusia untuk ditinjau dan koreksi. Studi kasus menggunakan ansambel dalam bersama dengan penskalaan suhu.
Skenario ini memiliki dua tujuan bisnis:
-
Penarikan tinggi untuk kasus negatif. Kami ingin menangkap semua kalimat yang memiliki kesalahan tata bahasa.
-
Pengurangan beban kerja manual. Kami ingin kasus proses otomatis yang tidak memiliki kesalahan tata bahasa sebanyak mungkin.
Hasil dasar
Saat menerapkan satu model ke data tanpa putus sekolah pada waktu pengujian, ini adalah hasilnya:
-
Untuk sampel positif: ingat = 94%, presisi = 82%
-
Untuk sampel negatif: ingat = 52%, presisi = 79%
Model ini memiliki kinerja yang jauh lebih rendah untuk sampel negatif. Namun, untuk aplikasi bisnis, ingat untuk sampel negatif harus menjadi metrik yang paling penting.
Penerapan ansambel dalam
Untuk mengukur ketidakpastian model, kami menggunakan penyimpangan standar prediksi model individu di seluruh ansambel yang mendalam. Hipotesis kami adalah bahwa untuk positif palsu (FP) dan negatif palsu (FN) kami berharap untuk melihat ketidakpastian jauh lebih tinggi daripada positif sejati (TP) dan negatif sejati (TN). Secara khusus, model harus memiliki kepercayaan diri yang tinggi ketika benar dan rendah kepercayaan diri ketika itu salah, sehingga kita dapat menggunakan ketidakpastian untuk memberitahu kapan harus mempercayai output model.
Matriks kebingungan berikut menunjukkan distribusi ketidakpastian di data FN, FP, TN, dan TP. Probabilitas deviasi standar negatif adalah deviasi standar probabilitas negatif di seluruh model. Penyimpangan median, mean, dan standar dikumpulkan di seluruh dataset.
Probabilitas deviasi standar negatif | |||
---|---|---|---|
Label | Median | Berarti | Standar deviasi |
FN |
0,061 |
0,060 |
0,027 |
FP |
0,063 |
0,062 |
0,040 |
TN |
0,039 |
0,045 |
0,026 |
TP |
0,009 |
0,020 |
0,025 |
Seperti matriks menunjukkan, model melakukan yang terbaik untuk TP, sehingga memiliki ketidakpastian terendah. Model ini dilakukan yang terburuk untuk FP, sehingga memiliki ketidakpastian tertinggi, yang sejalan dengan hipotesis kami.
Untuk langsung memvisualisasikan deviasi model antara ansambel, berikut grafik plot probabilitas dalam tampilan pencar untuk FN dan FP untuk data CoLA. Setiap garis vertikal adalah untuk satu sampel input tertentu. Grafik menunjukkan delapan tampilan model ansambel. Artinya, setiap garis vertikal memiliki delapan titik data. Titik-titik ini baik tumpang tindih sempurna atau didistribusikan dalam kisaran tertentu.
Grafik pertama menunjukkan bahwa untuk FP, probabilitas menjadi mendistribusikan positif antara 0,5 dan 0.925 di semua delapan model dalam ansambel.

Demikian pula, grafik berikutnya menunjukkan bahwa untuk FN, probabilitas menjadi negatif mendistribusikan antara 0,5 dan 0,85 di antara delapan model dalam ansambel.

Mendefinisikan aturan keputusan
Untuk memaksimalkan manfaat hasil, kami menggunakan aturan ansambel berikut: Untuk setiap input, kami mengambil model yang memiliki probabilitas terendah menjadi positif (dapat diterima) untuk membuat keputusan yang menandai. Jika probabilitas yang dipilih lebih besar dari, atau sama dengan, nilai ambang batas, kita menandai kasus sebagai diterima dan auto-proses itu. Jika tidak, kami mengirimkan kasus untuk tinjauan manusia. Ini adalah aturan keputusan konservatif yang sesuai di lingkungan yang sangat diatur.
Mengevaluasi hasil
Grafik berikut menunjukkan tingkat presisi, recall, dan auto (otomatisasi) untuk kasus negatif (kasus dengan kesalahan tata bahasa). Tingkat otomatisasi mengacu pada persentase kasus yang akan diproses secara otomatis karena model menandai kalimat sebagai diterima. Model sempurna dengan 100% recall dan presisi akan mencapai 69% (kasus positif/total kasus) tingkat otomatisasi, karena hanya kasus positif yang akan diproses secara otomatis.

Perbandingan antara ensemble dalam dan kasus naif menunjukkan bahwa, untuk pengaturan ambang yang sama, recall meningkat cukup drastis dan presisi sedikit menurun. (Tingkat otomatisasi tergantung pada rasio sampel positif dan negatif dalam dataset uji.) Misalnya:
-
Menggunakan nilai ambang 0,5:
-
Dengan satu model, penarikan untuk kasus negatif akan menjadi 52%.
-
Dengan pendekatan ansambel yang dalam, nilai recall akan 69%.
-
-
Menggunakan nilai ambang 0,88:
-
Dengan satu model, penarikan untuk kasus negatif akan 87%.
-
Dengan pendekatan ansambel yang dalam, nilai recall akan menjadi 94%.
-
Anda dapat melihat bahwa ensemble dalam dapat meningkatkan metrik tertentu (dalam kasus kami, penarikan kembali kasus negatif) untuk aplikasi bisnis, tanpa persyaratan untuk meningkatkan ukuran data pelatihan, kualitasnya, atau perubahan metode model.