Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Optimalisasi preferensi langsung (DPO)
DPO adalah teknik canggih yang menyempurnakan model berdasarkan preferensi manusia daripada label tetap. Ini menggunakan contoh berpasangan di mana manusia telah menunjukkan respons mana yang lebih baik untuk prompt yang diberikan. Model belajar untuk menghasilkan output yang selaras dengan preferensi ini, membantu meningkatkan kualitas respons, mengurangi output berbahaya, dan lebih menyelaraskan dengan nilai-nilai kemanusiaan. DPO sangat berharga untuk menyempurnakan perilaku model setelah SFT awal.
Baik DPO peringkat penuh dan adaptor peringkat rendah (LoRa) DPO tersedia.
Untuk petunjuk terperinci tentang penggunaan DPO dengan kustomisasi model Amazon Nova, lihat bagian Pengoptimalan Preferensi Langsung (DPO) dari SageMakeruser panduan.