근접 정책 최적화(PPO) - Amazon Nova

근접 정책 최적화(PPO)

근접 정책 최적화(PPO)는 여러 기계 학습 모델을 활용해 하나의 모델을 학습하고 점수를 매기는 과정입니다. PPO 프로세스는 다음 다섯 가지 핵심 구성 요소로 이루어집니다.

  • 액터 학습 모델(또는 정책 모델): SFT(지도 미세 조정) 방식의 모델로, 에포크마다 미세 조정 및 업데이트가 이루어집니다. 업데이트는 프롬프트를 샘플링하고, 결과물을 생성하며, 클리핑 대리 목표를 사용해 가중치를 업데이트하는 방식으로 수행됩니다. 이를 통해 토큰 단위의 로그 가능도 변화 폭이 제한되어 각 정책 단계가 이전 단계와 근접하게 유지되며 학습 안정성이 보장됩니다.

  • 액터 생성 모델: 보상 모델과 비평가 모델의 평가를 받기 위해 프롬프트 완성 또는 응답을 생성하는 모델입니다. 이 모델의 가중치는 매 에포크마다 액터 학습 모델 또는 정책 모델에서 업데이트됩니다.

  • 보상 모델: 가중치가 고정(동결)된 상태로, 액터 생성 모델을 평가하여 응답 품질에 대한 피드백을 제공합니다.

  • 비평가 모델: 학습 가능한(동결되지 않은) 가중치를 가진 모델로, 액터 생성 모델을 평가하는 데 사용됩니다. 이 점수는 일반적으로 액터가 시퀀스의 나머지 토큰을 생성할 때 받을 총 보상에 대한 추정치로 간주됩니다.

  • 앵커 모델: 가중치가 동결된 SFT 모델로, 액터 학습 모델과 원래의 기본 모델 간의 Kullback-Leibler(KL) 발산을 계산하는 데 사용됩니다. 앵커 모델은 액터 모델의 업데이트가 기본 모델과 비교해 지나치게 급격하지 않도록 보장합니다. 급격한 변화는 학습 불안정이나 성능 저하를 초래할 수 있습니다.

이러한 구성 요소들이 결합되어, 정의된 보상 기준에 따라 언어 모델의 출력물을 최적화하면서도 안정적인 학습 동력을 유지할 수 있는 정교한 강화 학습 시스템을 구성합니다.

Amazon Nova 모델 사용자 지정에서 PPO를 사용하는 방법에 대한 자세한 지침은 SageMaker 사용 설명서의 근접 정책 최적화(PPO) 섹션을 참조하세요.