近端政策最佳化 (PPO) - Amazon Nova

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

近端政策最佳化 (PPO)

近端政策最佳化 (PPO) 是使用數個機器學習模型來訓練和評分模型的程序。PPO 程序包含五個關鍵元件:

  • 演員訓練模型 (或政策模型):監督式微調 (SFT) 模型,可微調和更新每個 epoch。更新是透過抽樣提示、產生完成,以及使用剪輯代理目標更新權重來進行。這會限制每個字符的日誌獲利性變更,讓每個政策步驟都接近前一個政策步驟,以保持訓練穩定性。

  • 演員產生模型:產生提示完成或回應的模型,由獎勵模型和評論模型判斷。此模型的權重會從每個 epoch 的演員訓練或政策模型進行更新。

  • 獎勵模型:具有固定 (凍結) 權重的模型,用於對演員產生模型進行評分,提供有關回應品質的意見回饋。

  • 關鍵模型:具有可訓練 (非凍結) 權重的模型,用於對演員產生模型進行評分。此分數通常被視為演員在序列中產生剩餘權杖時獲得的總獎勵的預估值。

  • 錨點模型:具有凍結權重的 SFT 模型,用於計算演員訓練模型和原始基礎模型之間的 Kullback-Leibler (KL) 差異。錨點模型可確保演員模型的更新不會比基本模型過於劇烈。劇烈變更可能會導致不穩定或效能降低。

這些元件共同建立複雜的強化學習系統,可根據定義的獎勵標準最佳化語言模型輸出,同時維持穩定的訓練動態。

如需搭配 Amazon Nova 模型自訂使用 PPO 的詳細說明,請參閱 SageMakeruser 指南中的近端政策最佳化 (PPO) 一節。