Cakupan dan akurasi dokumen — diluar domain domain - AWS Bimbingan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Cakupan dan akurasi dokumen — diluar domain domain

Kami juga memeriksa data out-of-domain, yang diambil dari buku teks sintaks yang tidak digunakan untuk sumber data pelatihan. Namun, kami tidak mengamati perbedaan nyata dalam kinerja relatif. Ini mungkin karena kandungan kuantitatif fitur linguistik kemungkinan akan berbeda sangat sedikit, meskipun kalimat bersumber dari buku teks yang berbeda.

Bagan berikut memberikan perbandingan fitur linguistik yang paling sering di dua sumber data. Ini menunjukkan sedikit perbedaan antara distribusi dataset dalam domain dan out-of-domain. Selain itu, sehubungan dengan kosakata, model memiliki setidaknya beberapa eksposur dengan bahasa di luar domain selama pelatihan pada contoh dalam domain. Semua kata yang ditemukan di set out-of-domain memiliki jumlah frekuensi minimal 100 di seluruh set pelatihan (Warstadt, Singh, dan Bowman 2019). Dengan demikian, data out-of-domain tidak dianggap benar-benar keluar dari distribusi. Untuk informasi lebih lanjut tentang fitur linguistik, lihat Warstadt, Singh, dan Bowman (2019).

Perbandingan fitur linguistik yang paling sering di dua sumber data

Untuk mendapatkan rasa yang lebih baik dari kemampuan dropout ensemble yang mendalam dan Monte Carlo untuk memperkirakan ketidakpastian dalam pengaturan yang benar-benar out-of-distribusi, kami menciptakan tiga dataset permusuhan yang menyertakan kata-kata acak yang disuntikkan ke dalam kalimat:

  • Satu dataset dengan kata-kata langka yang tidak ditemukan dalam dataset pelatihan

  • Satu dataset dengan kata-kata non-bahasa Inggris yang tidak ditemukan dalam dataset pelatihan

  • Satu dataset dengan campuran dua dataset sebelumnya

Semua kata yang disuntikkan hadir dalam kosa kata asli yang digunakan untuk pretraining model.

Grafik berikut menunjukkan korelasi antara akurasi dan cakupan untuk dataset ketiga. Dataset pertama dan kedua menunjukkan pola yang sama.

Korelasi antara akurasi dan cakupan untuk dataset permusuhan

Grafik menunjukkan manfaat yang jelas dari menggunakan putus sekolah MC atau ansambel mendalam dengan putus sekolah MC untuk tingkat cakupan di atas 40%. Kami menduga bahwa kedua metode ini menunjukkan kinerja yang sama karena model pretraining tidak termasuk banyak diversifikasi. Ini membuka jalan untuk penyelidikan lebih lanjut. Degradasi kinerja yang signifikan untuk metode softmax naif yang terjadi di atas cakupan dokumen 40% kemungkinan karena kami mengubah sekitar 55% dari validasi yang ditetapkan dengan proses pembangkitan data musuh kami. Di wilayah cakupan rendah, metode memiliki nilai akurasi yang sama, karena set data ini tidak keluar dari distribusi.