AWS DeepRacer 교육 알고리즘 - AWS DeepRacer

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS DeepRacer 교육 알고리즘

근위 정책 최적화 (PPO) 대 소프트 액터 비평가 (SAC)

알고리즘 SAC와 PPO는 모두 정책과 가치 함수를 동시에 학습하지만 전략이 세 가지 주목할 만한 방식으로 달라집니다.

PPO

개별 작업 공간과 연속 작업 공간 모두에서 작동

연속적인 액션 공간에서 작동

On-Policy

OfPolicy

엔트로피 정규화 사용

최대화 목표에 엔트로피를 추가합니다.

안정적 vs. 데이터 사용량이 많은

환경을 탐색하는 동안 PPO 및 SAC 알고리즘의 정책을 통해 학습된 정보는 다르게 활용됩니다. PPO는 정책 기반 학습을 사용합니다. 즉, 환경을 탐색하는 현재 정책에서 얻은 관찰을 통해 가치 함수를 학습합니다. SAC는 정책 외 학습을 사용합니다. 즉, 이전 정책의 환경 탐구에서 얻은 관찰을 사용할 수 있습니다. 정책 외 학습과 정책 기반 학습 간의 절충점은 종종 안정성과 데이터 효율성입니다. 온-폴리시 알고리즘은 안정적이지만 데이터를 많이 사용하는 경향이 있는 반면, 오프 폴리시 알고리즘은 그 반대인 경향이 있습니다.

탐사 및 착취

탐사 대 착취는 RL의 주요 과제입니다. 알고리즘은 더 높은 누적 보상을 달성하기 위해 이전 경험에서 얻은 알려진 정보를 활용해야 하지만 future 최적의 정책을 찾는 데 사용할 수 있는 새로운 경험을 얻기 위해 탐색해야 합니다. 정책이 여러 번 반복되어 학습되고 환경에 대해 더 많이 알게 되면 주어진 관찰에 대한 조치를 선택하는 것이 더 확실해집니다. 그러나 정책이 충분히 탐색되지 않으면 최적이 아니더라도 이미 학습된 정보를 고수할 가능성이 높습니다. PPO 알고리즘은 에이전트가 국소 최적값으로 수렴하는 것을 방지하는 엔트로피 정규화를 사용하여 탐색을 장려합니다. SAC 알고리즘은 최대화 목표에 엔트로피를 추가하여 탐색과 활용 사이의 탁월한 균형을 유지합니다.

엔트로피

이러한 맥락에서 “엔트로피”는 정책의 불확실성을 측정하는 척도이므로 정책이 특정 국가에 대한 조치를 선택하는 데 얼마나 확신을 갖고 있는지를 나타내는 척도로 해석될 수 있습니다. 엔트로피가 낮은 정책은 자신있게 조치를 선택하는 반면 엔트로피가 높은 정책은 어떤 조치를 선택해야 할지 확신할 수 없습니다.

SAC 알고리즘의 엔트로피 최대화 전략은 PPO 알고리즘이 엔트로피를 정규화기로 사용하는 것과 비슷한 이점이 있습니다. PPO와 마찬가지로 에이전트가 엔트로피가 더 높은 액션을 선택하도록 장려하여 더 넓은 탐색을 장려하고 잘못된 로컬 최적값으로의 수렴을 방지합니다. 엔트로피 조절과 달리 엔트로피 최대화에는 고유한 이점이 있습니다. 독보적인 행동을 선택하는 정책을 포기하는 경향이 있는데, 이는 SAC 알고리즘이 PPO보다 데이터 효율성이 높은 경향이 있는 또 다른 이유입니다.

SAC 알파 하이퍼파라미터를 사용하여 SAC의 엔트로피 양을 조정합니다. 최대 SAC 알파 엔트로피 값 (1.0) 은 탐색에 유리합니다. 최소값 (0.0) 은 표준 RL 목표를 회복하고 탐험을 장려하는 엔트로피 보너스를 무효화합니다. 실험을 시작하기에 좋은 SAC 알파 값은 0.5입니다. 모델을 반복하면서 그에 따라 조정하세요.

PPO와 SAC 알고리즘을 모두 사용해 보고, 하이퍼파라미터를 실험하고, 다양한 작업 공간에서 실험해 보세요.