Ottimizzazione diretta delle preferenze (DPO) - Amazon Nova

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Ottimizzazione diretta delle preferenze (DPO)

Il DPO è una tecnica avanzata che perfeziona i modelli in base alle preferenze umane anziché alle etichette fisse. Utilizza esempi accoppiati in cui gli esseri umani hanno indicato quale risposta è migliore per un determinato prompt. Il modello impara a generare output in linea con queste preferenze, contribuendo a migliorare la qualità della risposta, ridurre gli output dannosi e allinearsi meglio con i valori umani. Il DPO è particolarmente utile per affinare il comportamento del modello dopo l'SFT iniziale.

Sono disponibili sia DPO full rank che Low-Rank Adapter (LoRa) DPO.

Per istruzioni dettagliate sull'uso di DPO con la personalizzazione del modello Amazon Nova, consulta la sezione Direct Preference Optimization (DPO) della guida. SageMakeruser