近端策略优化 (PPO)
近端策略优化 (PPO) 是使用多个机器学习模型对模型进行训练并评分的过程。PPO 过程涉及五个重要组件:
-
角色训练模型(或策略模型):一种监督式微调 (SFT) 模型,每个 epoch 都会进行微调和更新。更新是通过对提示进行采样、生成完成结果以及使用剪辑代理目标更新权重完成的。这可以限制单 Token 对数收益的变化,以使各策略步骤接近于上一个步骤,从而维持训练的稳定性。
-
角色生成模型:一种生成提示完成结果或响应的模型,通过奖励模型和评估模型进行判断。该模型的权重在每个 epoch 从角色训练或策略模型中进行更新。
-
奖励模型:一种具有固定(冻结)权重的模型,用于给角色生成模型打分,提供有关响应质量的反馈。
-
评估模型:一种具有可训练(未冻结)权重的模型,用于给角色生成模型打分。该分数通常被视为对角色在序列中生成剩余 Token 时获得的总奖励估计值。
-
锚点模型:一种具有冻结权重的 SFT 模型,用于计算角色训练模型和原始基础模型之间的 Kullback-Leibler (KL) 散度。锚点模型可确保角色模型的更新与基础模型相比不会太剧烈。剧烈变化可能导致不稳定或性能下降。
这些组件共同创建了一个复杂的强化学习系统,该系统可根据定义的奖励标准优化语言模型的输出,同时维持稳定的训练动态。
有关 Amazon Nova 模型自定义使用 PPO 的详细说明,请参阅《SageMakerUser 指南》中的近端策略优化 (PPO) 部分。