本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
直接偏好設定最佳化 (DPO)
DPO 是一種進階技術,可根據人類偏好而非固定標籤來微調模型。它使用配對範例,其中人類已指出哪個回應較適合給定的提示。此模型會學習產生符合這些偏好設定的輸出,協助改善回應品質、減少有害輸出,以及更符合人類值。DPO 對於在初始 SFT 之後微調模型行為特別重要。
提供全階 DPO 和低階轉接器 (LoRA) DPO。
如需搭配 Amazon Nova 模型自訂使用 DPO 的詳細說明,請參閱 SageMakeruser 指南中的直接偏好設定最佳化 (DPO) 一節。