Ottimizzazione diretta delle preferenze (DPO)

Il DPO è una tecnica avanzata che perfeziona i modelli in base alle preferenze umane anziché alle etichette fisse. Utilizza esempi accoppiati in cui gli esseri umani hanno indicato quale risposta è migliore per un determinato prompt. Il modello impara a generare output in linea con queste preferenze, contribuendo a migliorare la qualità della risposta, ridurre gli output dannosi e allinearsi meglio con i valori umani. Il DPO è particolarmente utile per affinare il comportamento del modello dopo l'SFT iniziale.

Sono disponibili sia DPO full rank che Low-Rank Adapter (LoRa) DPO.

Per istruzioni dettagliate sull'uso di DPO con la personalizzazione del modello Amazon Nova, consulta la sezione Direct Preference Optimization (DPO) della guida. SageMakeruser

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Regolazione fine supervisionata (Full FT, PEFT)

Ottimizzazione prossimale delle politiche (PPO)