Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Proximale Politikoptimierung (PPO)
Proximale Politikoptimierung (PPO) ist der Prozess, bei dem mehrere Modelle des maschinellen Lernens verwendet werden, um ein Modell zu trainieren und zu bewerten. Der PPO-Prozess umfasst fünf Hauptkomponenten:
-
Actor Train Model (oder politisches Modell): Ein Modell der überwachten Feinabstimmung (SFT), das in jeder Epoche verfeinert und aktualisiert wird. Die Aktualisierungen erfolgen durch Stichproben von Eingabeaufforderungen, Generierung von Vervollständigungen und Aktualisierung der Gewichtungen unter Verwendung eines abgeschnittenen Ersatzziels. Dadurch wird die Veränderung der Log-Rentabilität pro Token begrenzt, sodass jeder politische Schritt dem vorherigen entspricht, wodurch die Stabilität des Trainings gewahrt bleibt.
-
Modell zur Generierung von Akteuren: Ein Modell, das schnelle Ergebnisse oder Antworten generiert, die anhand des Belohnungs- und des Kritikermodells bewertet werden. Die Gewichte dieses Modells werden in jeder Epoche anhand des Akteurszugs- oder Politikmodells aktualisiert.
-
Belohnungsmodell: Ein Modell mit festen (eingefrorenen) Gewichtungen, das zur Bewertung des Modells zur Akteurgenerierung verwendet wird und Feedback zur Qualität der Antworten liefert.
-
Kritikermodell: Ein Modell mit trainierbaren (nicht eingefrorenen) Gewichten, das zur Bewertung des Modells der Schauspielergeneration verwendet wird. Diese Punktzahl wird oft als Schätzung der Gesamtbelohnung angesehen, die der Schauspieler erhält, wenn er die verbleibenden Tokens in einer Sequenz generiert.
-
Ankermodell: Ein SFT-Modell mit eingefrorenen Gewichten, das zur Berechnung der Kullback-Leibler-Divergenz (KL) zwischen dem Schauspieler-Zugmodell und dem ursprünglichen Basismodell verwendet wird. Das Ankermodell stellt sicher, dass die Aktualisierungen des Akteurmodells im Vergleich zum Basismodell nicht zu drastisch sind. Drastische Änderungen können zu Instabilität oder Leistungseinbußen führen.
Zusammen bilden diese Komponenten ein ausgeklügeltes Reinforcement-Learning-System, das die Ergebnisse des Sprachmodells auf der Grundlage definierter Belohnungskriterien optimieren und gleichzeitig eine stabile Trainingsdynamik aufrechterhalten kann.
Detaillierte Anweisungen zur Verwendung von PPO mit der Amazon Nova-Modellanpassung finden Sie im Abschnitt Proximal Policy Optimization (PPO) im SageMakeruser Leitfaden.