AWS DeepRacer 훈련 알고리즘 - AWS DeepRacer

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS DeepRacer 훈련 알고리즘

프록시멀 정책 최적화(PPO) 대 소프트 액터 크리틱(SAC)

SAC와 PPO 알고리즘은 모두 정책과 가치 함수를 동시에 학습하지만 전략은 크게 세 가지 측면에서 다릅니다.

PPO SAC

불연속 행동 공간과 연속 행동 공간 모두에서 작동

연속 행동 공간에서 작동

정책 기반

정책 외

엔트로피 정규화 사용

최대화 목표에 엔트로피를 추가합니다.

안정적 vs. 데이터를 많이 사용

환경을 탐색하면서 PPO 및 SAC 알고리즘 정책에 따라 학습한 정보는 다르게 활용됩니다. PPO는 정책에 대한 학습을 사용하는데, 이는 환경에 대한 현행 정책에서 얻은 관찰을 통해 그 가치 함수를 학습한다는 의미입니다. SAC는 정책 외 학습을 사용하므로 이전 정책에서 환경을 탐색하여 얻은 관찰을 활용할 수 있습니다. 정책 외 학습과 정책 기반 학습 간의 균형점은 종종 안정성과 데이터 효율성입니다. 정책 기반 알고리즘은 안정성이 더 높지만 데이터를 많이 사용하는 경향이 있는 반면, 정책 외 알고리즘은 그 반대 경향을 가지고 있습니다.

탐색 및 착취

탐색과 착취는 RL의 주요 과제입니다. 알고리즘은 이전 경험의 알려진 정보를 활용하여 더 높은 누적 보상을 달성해야 하지만, 미래에 최적의 정책을 찾는 데 사용할 수 있는 새로운 경험을 얻기 위한 탐색도 필요합니다. 정책을 여러 번 반복하여 학습하고 환경에 대해 더 많이 알게 되면 주어진 관찰에 맞는 행동을 선택하는 것이 더 확실해집니다. 그러나 정책을 충분히 검토하지 않으면 최적이 아니더라도 이미 학습한 정보를 고수할 가능성이 높습니다. PPO 알고리즘은 에이전트가 로컬 최적값으로 수렴하는 것을 방지하는 엔트로피 정규화를 사용하여 탐색을 장려합니다. SAC 알고리즘은 최대화 목표에 엔트로피를 추가하여 탐색과 활용 사이에서 탁월한 균형을 유지합니다.

Entropy

이러한 맥락에서 “엔트로피”는 정책의 불확실성을 나타내는 척도이므로 정책이 주어진 상태에 맞는 행동을 선택하는 데 얼마나 확신을 갖고 있는지를 나타내는 척도로 해석될 수 있습니다. 엔트로피가 낮은 정책은 어떤 행동을 해야 할지 확신이 있는 반면, 엔트로피가 높은 정책은 어떤 행동을 해야 할지 확신이 서지 않습니다.

SAC 알고리즘의 엔트로피 최대화 전략은 PPO 알고리즘이 엔트로피를 정규화기로 사용하는 것과 비슷한 이점이 있습니다. PPO와 마찬가지로 에이전트가 엔트로피가 더 높은 행동을 선택하도록 장려하여 더 폭넓은 탐색을 장려하고 잘못된 로컬 최적값으로의 수렴을 방지합니다. 엔트로피 조절과 달리 엔트로피 최대화에는 고유한 이점이 있습니다. 위험하지 않은 행동을 선택하는 정책을 포기하는 경향이 있는데, 이는 SAC 알고리즘이 PPO보다 데이터 효율성이 더 높은 경향이 있는 또 다른 이유입니다.

SAC 알파 하이퍼파라미터를 사용하여 SAC의 엔트로피 양을 조정합니다. 최대 SAC 알파 엔트로피 값(1.0)은 탐색에 유리합니다. 최소값(0.0)은 표준 RL 목표를 복원하고 탐색을 장려하는 엔트로피 보너스를 무효화합니다. 실험을 시작하기 좋은 SAC 알파 값은 0.5입니다. 모델을 반복하면서 그에 맞게 조정하세요.

PPO 알고리즘과 SAC 알고리즘을 모두 사용해 보고, 하이퍼파라미터를 실험하고, 다양한 행동 공간에서 이를 사용해 보세요.