Metrik untuk menyempurnakan model bahasa besar di Autopilot - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Metrik untuk menyempurnakan model bahasa besar di Autopilot

Dengan menggunakan kumpulan data Anda, Autopilot secara langsung menyempurnakan model bahasa target (LLM) untuk meningkatkan metrik objektif default, kehilangan lintas entropi.

Kehilangan entropi silang adalah metrik yang banyak digunakan untuk menilai perbedaan antara distribusi probabilitas yang diprediksi dan distribusi kata yang sebenarnya dalam data pelatihan. Dengan meminimalkan kehilangan lintas entropi, model belajar untuk membuat prediksi yang lebih akurat dan relevan secara kontekstual, terutama dalam tugas-tugas yang berkaitan dengan pembuatan teks.

Setelah menyempurnakan LLM Anda dapat mengevaluasi kualitas teks yang dihasilkan menggunakan berbagai skor. ROUGE Selain itu, Anda dapat menganalisis kebingungan dan pelatihan lintas entropi dan kerugian validasi sebagai bagian dari proses evaluasi.

  • Kehilangan kebingungan mengukur seberapa baik model dapat memprediksi kata berikutnya dalam urutan teks, dengan nilai yang lebih rendah menunjukkan pemahaman yang lebih baik tentang bahasa dan konteks.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)adalah seperangkat metrik yang digunakan di bidang pemrosesan bahasa alami (NLP) dan pembelajaran mesin untuk mengevaluasi kualitas teks yang dihasilkan mesin, seperti ringkasan teks atau pembuatan teks. Ini terutama menilai kesamaan antara teks yang dihasilkan dan teks referensi kebenaran dasar (ditulis manusia) dari kumpulan data validasi. ROUGEukuran dirancang untuk menilai berbagai aspek kesamaan teks, termasuk presisi dan ingatan n-gram (urutan kata yang berdekatan) dalam teks yang dihasilkan sistem dan referensi. Tujuannya adalah untuk menilai seberapa baik model menangkap informasi yang ada dalam teks referensi.

    Ada beberapa varian ROUGE metrik, tergantung pada jenis n-gram yang digunakan dan aspek spesifik dari kualitas teks yang dievaluasi.

    Daftar berikut berisi nama dan deskripsi ROUGE metrik yang tersedia setelah penyempurnaan model bahasa besar di Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, ROUGE metrik primer, mengukur tumpang tindih n-gram antara teks yang dihasilkan sistem dan teks referensi. ROUGE-Ndapat disesuaikan dengan nilai yang berbeda dari n (di sini 1 atau2) untuk mengevaluasi seberapa baik teks yang dihasilkan sistem menangkap n-gram dari teks referensi.

    ROUGE-L

    ROUGE-L(ROUGE-LongestCommon Sequence) menghitung urutan umum terpanjang antara teks yang dihasilkan sistem dan teks referensi. Varian ini mempertimbangkan urutan kata selain konten tumpang tindih.

    ROUGE-L-Sum

    ROUGE-L-SUM(Urutan Umum Terpanjang untuk Ringkasan) dirancang untuk evaluasi sistem ringkasan teks. Ini berfokus pada pengukuran urutan umum terpanjang antara ringkasan yang dihasilkan mesin dan ringkasan referensi. ROUGE-L-SUMmemperhitungkan urutan kata dalam teks, yang penting dalam tugas ringkasan teks.