Optimalisasi kebijakan proksimal (PPO) - Amazon Nova

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Optimalisasi kebijakan proksimal (PPO)

Optimalisasi kebijakan proksimal (PPO) adalah proses menggunakan beberapa model pembelajaran mesin untuk melatih dan menilai model. Proses PPO melibatkan lima komponen utama:

  • Model kereta aktor (atau model kebijakan): Model fine-tuning (SFT) yang diawasi yang disetel dengan baik dan diperbarui setiap zaman. Pembaruan dilakukan dengan petunjuk pengambilan sampel, menghasilkan penyelesaian, dan memperbarui bobot menggunakan tujuan pengganti yang terpotong. Ini membatasi perubahan log-profitabilitas per token sehingga setiap langkah kebijakan proksimal dengan yang sebelumnya, menjaga stabilitas pelatihan.

  • Model generasi aktor: Model yang menghasilkan penyelesaian atau respons yang cepat untuk dinilai oleh model penghargaan dan model kritikus. Bobot model ini diperbarui dari kereta aktor atau model kebijakan setiap zaman.

  • Model hadiah: Model dengan bobot tetap (beku) yang digunakan untuk menilai model generasi aktor, memberikan umpan balik tentang kualitas respons.

  • Model kritikus: Model dengan bobot yang dapat dilatih (tidak dibekukan) yang digunakan untuk mencetak model generasi aktor. Skor ini sering dipandang sebagai perkiraan dari total hadiah yang diterima aktor saat menghasilkan token yang tersisa secara berurutan.

  • Model jangkar: Model SFT dengan bobot beku yang digunakan untuk menghitung divergensi Kullback-Leibler (KL) antara model kereta aktor dan model dasar asli. Model jangkar memastikan bahwa pembaruan model aktor tidak terlalu drastis dibandingkan dengan model dasar. Perubahan drastis dapat menyebabkan ketidakstabilan atau penurunan kinerja.

Bersama-sama, komponen-komponen ini menciptakan sistem pembelajaran penguatan canggih yang dapat mengoptimalkan output model bahasa berdasarkan kriteria penghargaan yang ditentukan sambil mempertahankan dinamika pelatihan yang stabil.

Untuk petunjuk mendetail tentang penggunaan PPO dengan kustomisasi model Amazon Nova, lihat bagian Optimasi Kebijakan Proksimal (PPO) dari panduan. SageMakeruser