Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Ottimizzazione prossimale delle politiche (PPO)
L'ottimizzazione delle politiche prossimali (PPO) è il processo di utilizzo di diversi modelli di machine learning per addestrare e valutare un modello. Il processo PPO prevede cinque componenti chiave:
-
Modello di treno degli attori (o modello politico): un modello di messa a punto supervisionata (SFT) che viene perfezionato e aggiornato in ogni epoca. Gli aggiornamenti vengono effettuati campionando i prompt, generando completamenti e aggiornando i pesi utilizzando un obiettivo sostitutivo ritagliato. Ciò limita la modifica della redditività dei log per token in modo che ogni fase della politica sia prossima a quella precedente, preservando la stabilità della formazione.
-
Modello di generazione degli attori: un modello che genera completamenti o risposte tempestivi da giudicare in base al modello di ricompensa e al modello critico. I pesi di questo modello vengono aggiornati in base al modello di formazione degli attori o al modello politico di ogni epoca.
-
Modello di ricompensa: modello con pesi fissi (congelati) utilizzato per assegnare un punteggio al modello di generazione degli attori e fornire un feedback sulla qualità della risposta.
-
Modello critico: un modello con pesi allenabili (non congelati) utilizzato per comporre la colonna sonora del modello di generazione degli attori. Questo punteggio viene spesso visto come una stima della ricompensa totale che l'attore riceve quando genera i token rimanenti in una sequenza.
-
Modello di ancoraggio: modello SFT con pesi congelati utilizzato per calcolare la divergenza di Kullback-Leibler (KL) tra il modello di treno ad attori e il modello base originale. Il modello di ancoraggio garantisce che gli aggiornamenti al modello di attore non siano troppo drastici rispetto al modello base. Cambiamenti drastici possono portare all'instabilità o al degrado delle prestazioni.
Insieme, questi componenti creano un sofisticato sistema di apprendimento per rinforzo in grado di ottimizzare i risultati del modello linguistico sulla base di criteri di ricompensa definiti, mantenendo al contempo dinamiche di allenamento stabili.
Per istruzioni dettagliate sull'uso di PPO con la personalizzazione del modello Amazon Nova, consulta la sezione Proximal Policy Optimization (PPO) della guida. SageMakeruser