기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS DeepRacer 교육 알고리즘
근위적 정책 최적화 (PPO) 대 소프트 액터 비평가 (SAC)
알고리즘 SAC와 PPO는 정책과 가치 함수를 동시에 학습하지만, 그 전략은 세 가지 주목할 만한 측면에서 다양합니다.
PPO | 낭 |
---|---|
개별 및 연속 작업 공간 모두에서 작동 |
연속 액션 스페이스에서 작동 |
온-폴리시 |
정책 외 |
엔트로피 정규화 사용 |
최대화 목표에 엔트로피를 추가합니다. |
안정적 vs. 데이터 사용량
환경을 탐색하면서 PPO 및 SAC 알고리즘 정책을 통해 학습한 정보는 다르게 활용됩니다. PPO는 온정책 학습을 사용합니다. 즉, 환경을 탐색하는 현재 정책에서 얻은 관찰을 통해 가치 함수를 학습합니다. SAC는 정책 외 학습을 사용합니다. 즉, 이전 정책의 환경 탐색을 통해 얻은 관찰을 사용할 수 있습니다. 정책 외 학습과 정책 내 학습 간의 절충점은 종종 안정성과 데이터 효율성입니다. 정책 기반 알고리즘은 안정적이지만 데이터를 많이 사용하는 경향이 있는 반면, 정책 외 알고리즘은 그 반대인 경향이 있습니다.
탐험 대 착취
탐색과 착취는 RL의 주요 과제입니다. 알고리즘은 이전 경험에서 알려진 정보를 활용하여 더 높은 누적 보상을 달성해야 하지만 향후 최적의 정책을 찾는 데 사용할 수 있는 새로운 경험을 얻기 위한 탐색도 필요합니다. 정책이 여러 번의 반복을 통해 학습되고 환경에 대해 더 많이 학습할수록 주어진 관찰에 대한 조치를 선택하는 것이 더 확실해집니다. 그러나 정책이 충분히 탐색되지 않으면 최적의 상태가 아니더라도 이미 학습한 정보를 고수할 가능성이 높습니다. PPO 알고리즘은 에이전트가 로컬 최적값으로 수렴하는 것을 방지하는 엔트로피 정규화를 사용하여 탐색을 장려합니다. SAC 알고리즘은 최대화 목표에 엔트로피를 추가하여 탐색과 활용 사이의 탁월한 균형을 유지합니다.
Entropy
이러한 맥락에서 “엔트로피”는 정책의 불확실성을 나타내는 척도이므로 정책이 특정 국가에 대한 조치를 선택하는 데 얼마나 확신을 갖고 있는지를 나타내는 척도로 해석될 수 있습니다. 엔트로피가 낮은 정책은 조치를 선택하는 데 매우 자신 있는 반면, 엔트로피가 높은 정책은 어떤 조치를 선택해야 할지 확신이 서지 않습니다.
SAC 알고리즘의 엔트로피 최대화 전략은 PPO 알고리즘이 엔트로피를 정규화기로 사용하는 것과 비슷한 이점이 있습니다. PPO와 마찬가지로 에이전트가 더 높은 엔트로피를 가진 액션을 선택하도록 장려하여 광범위한 탐색을 장려하고 나쁜 로컬 최적으로의 수렴을 방지합니다. 엔트로피 조절과 달리 엔트로피 최대화에는 고유한 이점이 있습니다. 위험하지 않은 행동을 선택하는 정책을 포기하는 경향이 있는데, 이는 SAC 알고리즘이 PPO보다 데이터 효율성이 더 높은 경향이 있는 또 다른 이유입니다.
SAC 알파 하이퍼파라미터를 사용하여 SAC의 엔트로피 양을 조정합니다. 최대 SAC 알파 엔트로피 값 (1.0) 은 탐색에 유리합니다. 최소값 (0.0) 은 표준 RL 목표를 회복하고 탐색을 장려하는 엔트로피 보너스를 무효화합니다. 실험을 시작하기에 좋은 SAC 알파 값은 0.5입니다. 모델을 반복하면서 그에 맞게 조정하세요.
PPO 알고리즘과 SAC 알고리즘을 모두 사용해 보고, 하이퍼파라미터를 실험하고, 다양한 동작 공간에서 탐색해 보세요.