直接偏好优化 (DPO) - Amazon Nova

直接偏好优化 (DPO)

DPO 是一种根据人类偏好而非固定标签来微调模型的先进技术。这种方法使用成对的示例,由人类指出哪种反应更适合给定的提示。该模型通过学习生成符合这些偏好的输出,从而帮助提高响应质量,减少不良输出,并与人类价值观更好地保持一致。DPO 特别适合在初始 SFT 之后优化模型行为。

全秩 DPO 和低秩适配器 (LoRA) DPO 均可用。

有关 Amazon Nova 模型自定义使用 DPO 的详细说明,请参阅《SageMakerUser 指南》中的直接偏好优化 (DPO) 部分。