直接偏好設定最佳化 (DPO)

DPO 是一種進階技術，可根據人類偏好而非固定標籤來微調模型。它使用配對範例，其中人類已指出哪個回應較適合給定的提示。此模型會學習產生符合這些偏好設定的輸出，協助改善回應品質、減少有害輸出，以及更符合人類值。DPO 對於在初始 SFT 之後微調模型行為特別重要。

提供全階 DPO 和低階轉接器 (LoRA) DPO。

如需搭配 Amazon Nova 模型自訂使用 DPO 的詳細說明，請參閱 SageMakeruser 指南中的直接偏好設定最佳化 (DPO) 一節。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

監督式微調 (Full FT、PEFT)

近端政策最佳化 (PPO)