Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Ansambel yang dalam
Ide inti di balik ensembling adalah bahwa dengan memiliki komite model, kekuatan yang berbeda akan saling melengkapi satu sama lain, dan banyak kelemahan akan membatalkan satu sama lain. Ini adalah intuisi membimbing di balik abad ke-18 matematikawan Perancis Nicolas de Condorcet teorema juri terkenal (Estlund 1994): Jika setiap juri memiliki probabilitas yang lebih besar dari 50% sampai pada putusan yang sebenarnya, dan jika juri membuat keputusan independen, kemungkinan putusan kelompok yang benar meningkat menjadi 100% seiring jumlah juri meningkat.
Pindah ke sejarah baru-baru ini, proses ensembling model ML-nya mencakup dua langkah: melatih model yang berbeda dan menggabungkan prediksi. Anda dapat memperoleh model yang berbeda dengan menggunakan subset fitur yang berbeda, data pelatihan, rezim pelatihan, dan arsitektur model. Anda dapat menggabungkan prediksi dengan rata-rata mereka, melatih model baru di atas prediksi (Model susun), atau menggunakan aturan pemungutan suara khusus yang dapat Anda sesuaikan dengan konteks tertentu (lihatstudi kasusuntuk satu contoh seperti itu). Dua teknik ensembling awal untuk pembelajaran mesin adalahmeningkatkan(Freund dan Schapire 1996) danhutan acak(Breiman 2001). Ini adalah dua pendekatan pelengkap.
Gagasan di balik meningkatkan adalah melatih pembelajar yang lemah secara berurutan. Setiap model berikutnya berfokus pada subset data dan didorong oleh kesalahan yang sebelumnya diamati selama pelatihan. Dengan cara ini setiap pohon berurutan dilatih pada satu set pelatihan baru yang sebelumnya tak terlihat. Pada akhir pelatihan, prediksi dirata-ratakan di seluruh pembelajar yang lemah.
Ide di balik hutan acak adalah melatih beberapa model pohon keputusan tanpa pemangkasan, pada sampel bootstrapped data dan dengan memilih subset fitur acak. Breiman menunjukkan bahwa kesalahan generalisasi memiliki batas atas yang merupakan fungsi dari jumlah dan dekorasi pohon individu.
Dalam pembelajaran mendalam, putus sekolah dirancang sebagai teknik regularisasi dan juga dapat ditafsirkan sebagai ansambel beberapa model (Srivastava dkk 2014). Kesadaran bahwa putus sekolah dapat digunakan untuk secara efektif mengukur ketidakpastian (Gal dan Ghahramani 2016) memotivasi eksplorasi lebih lanjut ansambel dalam model pembelajaran mendalam untuk tujuan yang sama. Ansambel dalam telah terbukti mengungguli putus sekolah MC dalam mengukur ketidakpastian dalam berbagai set data dan tugas dalam regresi dan klasifikasi (Lakshminarayanan, Pritzel, dan Blundell 2017). Selain itu, ansambel mendalam telah terbukti mutakhir dalam pengaturan out-of-distribusi (seperti gangguan data atau pengenalan kelas baru yang tak terlihat selama pelatihan). Mereka mengungguli putus sekolah MC dan metode lainnya (Ovadia et al. 2019). Alasan mengapa ansambel dalam tampil sangat baik dalam pengaturan out-of-distribusi adalah bahwa nilai berat badan dan lintasan kehilangan mereka sangat berbeda satu sama lain, dan, sebagai hasilnya, mereka mengarah pada beragam prediksi (Benteng, Hu, dan Lakshminarayanan 2019).
Jaringan saraf sering memiliki ratusan juta parameter lebih banyak daripada titik data pelatihan. Ini berarti bahwa mereka termasuk ruang besar kemungkinan fungsi yang mungkin cukup mendekati fungsi pembangkit data. Akibatnya, ada banyak lembah kerugian rendah dan daerah yang semuanya sesuai dengan baik, tetapi berbeda, fungsi. Dilihat dari perspektif Bayesian (Wilson dan Izmailov 2020), fungsi kandidat ini sesuai dengan hipotesis yang berbeda yang mengidentifikasi fungsi dasar yang benar. Dengan demikian, semakin banyak fungsi kandidat yang Anda ensemble, semakin besar kemungkinan Anda mewakili kebenaran, dan karena itu mencapai model yang kuat yang menunjukkan kepercayaan diri rendah saat Anda memperluas kesimpulan dari distribusi. Ensemble pada dasarnya menetap di banyak lembah low-loss jauh, menghasilkandistribusi beragam fungsi(Benteng, Hu, dan Lakshminarayanan 2019). Di sisi lain, metode alternatif seperti MC putus sekolah dan pendekatan Bayesian alternatif akan mengasah hanya satu lembah, menghasilkandistribusi fungsi serupa. Oleh karena itu, hanya beberapa jaringan saraf yang terlatih secara independen dari ensemble— (Lakshminarayanan, Pritzel, dan Blundell 2017) dan (Ovadia et al. 2019) menunjukkan bahwa lima model sudah cukup-akan lebih akurat memulihkan kemungkinan marjinal sejati (distribusi prediktif), jika dibandingkan dengan pengambilan sampel di sekitar wilayah kerugian rendah tunggal, yang akan menjadi tuan rumah banyak redundansi (karena fungsi semua akan serupa).
Singkatnya, untuk meningkatkan akurasi Anda dan untuk memaksimalkan keandalan ketidakpastian Anda, ensemble model Anda.