Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Direkte Präferenzoptimierung (DPO)
DPO ist eine fortschrittliche Technik, mit der Modelle auf der Grundlage menschlicher Präferenzen und nicht anhand fester Bezeichnungen optimiert werden. Es werden paarweise Beispiele verwendet, bei denen Menschen angegeben haben, welche Reaktion für eine bestimmte Aufforderung besser ist. Das Modell lernt, Ergebnisse zu generieren, die diesen Präferenzen entsprechen, und trägt so dazu bei, die Qualität der Antworten zu verbessern, schädliche Ergebnisse zu reduzieren und die menschlichen Werte besser in Einklang zu bringen. DPO ist besonders nützlich, um das Modellverhalten nach der ersten SFT zu verfeinern.
Sowohl Full-Rank DPO als auch Low-Rank Adapter (LoRa) DPO sind verfügbar.
Detaillierte Anweisungen zur Verwendung von DPO mit der Amazon Nova-Modellanpassung finden Sie im Abschnitt Direct Preference Optimization (DPO) im Handbuch. SageMakeruser