직접 선호 최적화(DPO) - Amazon Nova

직접 선호 최적화(DPO)

DPO는 고정된 레이블이 아니라 인간의 선호도를 기반으로 모델을 미세 조정하는 고급 기법입니다. 이 기법은 주어진 프롬프트에 대해 사람이 어느 응답이 더 좋은지 선택한 쌍 예제를 사용합니다. 모델은 이러한 선호도에 맞춰 출력을 생성하는 방법을 학습함으로써 응답 품질을 향상시키고 유해한 출력 가능성을 줄이며 인간의 가치와 더 잘 부합하도록 조정됩니다. DPO는 특히 초기 SFT 이후 모델 동작을 세부적으로 개선하는 데 유용합니다.

전체 순위 DPO와 저순위 어댑터(LoRA) DPO 모두 사용 가능합니다.

Amazon Nova 모델 사용자 지정에서 DPO를 사용하는 방법에 대한 자세한 지침은 SageMaker 사용 설명서의 직접 선호 최적화(DPO) 섹션을 참조하세요.