Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Cakupan dan akurasi dokumen — di luar domain domain
Kami juga memeriksa out-of-domain data, yang diambil dari buku teks sintaks yang tidak digunakan untuk sumber data pelatihan. Namun, kami tidak mengamati perbedaan nyata dalam kinerja relatif. Ini mungkin karena konten kuantitatif fitur linguistik kemungkinan akan sangat sedikit berbeda, meskipun kalimat bersumber dari buku teks yang berbeda.
Bagan berikut memberikan perbandingan fitur linguistik yang paling sering di kedua sumber data. Ini menunjukkan perbedaan yang sangat kecil antara distribusi in-domain dan out-of-domain dataset. Selain itu, sehubungan dengan kosakata, model tersebut setidaknya memiliki beberapa paparan out-of-domain bahasa selama pelatihan tentang contoh-contoh dalam domain. Semua kata yang ditemukan di out-of-domain set memiliki jumlah frekuensi setidaknya 100 di seluruh set pelatihan (Warstadt, Singh, dan Bowman 2019). Dengan demikian, out-of-domain data tidak dianggap benar-benar keluar dari distribusi. Untuk informasi lebih lanjut tentang fitur linguistik, lihat Warstadt, Singh, and Bowman (2019).
Untuk mendapatkan pemahaman yang lebih baik tentang kemampuan ensemble mendalam dan putus sekolah Monte Carlo untuk memperkirakan ketidakpastian dalam out-of-distribution pengaturan yang sebenarnya, kami membuat tiga kumpulan data permusuhan yang menyertakan kata-kata acak yang disuntikkan ke dalam kalimat:
-
Satu kumpulan data dengan kata-kata langka yang tidak ditemukan dalam kumpulan data pelatihan
-
Satu dataset dengan kata-kata non-bahasa Inggris tidak ditemukan dalam dataset pelatihan
-
Satu dataset dengan campuran dari dua dataset sebelumnya
Semua kata yang disuntikkan hadir dalam kosakata asli yang digunakan untuk pra-pelatihan model.
Grafik berikut menunjukkan korelasi antara akurasi dan cakupan untuk kumpulan data ketiga. Kumpulan data pertama dan kedua menunjukkan pola yang serupa.
Grafik menunjukkan manfaat yang jelas dari penggunaan putus sekolah MC atau ansambel dalam dengan putus sekolah MC untuk tingkat cakupan di atas 40%. Kami menduga bahwa kedua metode ini menunjukkan kinerja yang serupa karena model pra-pelatihan tidak mencakup banyak diversifikasi. Ini membuka jalan untuk penyelidikan lebih lanjut. Degradasi kinerja yang signifikan untuk metode softmax naif yang terjadi di atas cakupan dokumen 40% kemungkinan besar karena kami mengubah sekitar 55% dari set validasi dengan proses pembuatan data permusuhan kami. Di wilayah cakupan rendah, metode memiliki nilai akurasi yang sama, karena kumpulan data ini tidak keluar dari distribusi.