기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon에서 강화 학습 사용하기 SageMaker
강화 학습 (RL) 은 컴퓨터 과학, 신경과학 및 심리학과 같은 분야를 결합하여 상황을 행동에 매핑하여 수치적 보상 신호를 극대화하는 방법을 결정합니다. RL의 보상 신호에 대한 이러한 개념은 인간의 두뇌가 어떤 행동이 보상을 극대화하고 처벌을 최소화하는지에 대한 결정을 내리는 방법에 대한 신경 과학 연구에서 비롯됩니다. 대부분의 상황에서 인간에게는 어떤 조치를 취해야 하는지에 대한 명시적인 지침이 제공되지 않고, 대신 어떤 행동이 가장 즉각적인 보상을 제공하는지, 그리고 그러한 행동이 future 상황과 결과에 어떤 영향을 미치는지 모두 배워야 합니다.
RL의 문제는 동적 시스템 이론에서 비롯된 Markov 의사 결정 프로세스 (MDP) 를 사용하여 공식화됩니다. MDP는 학습 에이전트가 최종 목표를 달성하기 위해 일정 기간 동안 직면하는 실제 문제에 대한 높은 수준의 세부 정보를 캡처하는 것을 목표로 합니다. 학습 에이전트는 환경의 현재 상태를 확인하고 학습 에이전트의 현재 상태에 영향을 줄 수 있는 조치를 식별할 수 있어야 합니다. 또한 학습 에이전트의 목표는 환경 상태와 밀접한 관련이 있어야 합니다. 이러한 방식으로 공식화된 문제에 대한 해결책을 강화 학습 방법이라고 합니다.
강화 학습, 지도 학습 및 비지도 학습 패러다임의 차이점은 무엇입니까?
머신 러닝은 지도 학습, 비지도 학습, 강화라는 세 가지 별개의 학습 패러다임으로 나눌 수 있습니다.
지도 학습에서는 외부 감독자가 레이블이 지정된 예제의 교육 세트를 제공합니다. 각 예에는 상황에 대한 정보가 포함되고, 범주에 속하며, 해당 상황이 속한 범주를 식별하는 레이블이 있습니다. 지도 학습의 목표는 교육 데이터에 없는 상황을 정확하게 예측하기 위해 일반화하는 것입니다.
반면 RL은 대화식 문제를 다루기 때문에 상담원이 접할 수 있는 올바른 라벨을 사용하는 상황의 가능한 모든 예를 수집하기는 어렵습니다. 이러한 유형의 학습은 상담원이 자신의 경험을 통해 정확하게 학습하고 그에 따라 조정할 수 있을 때 가장 유망한 학습입니다.
비지도 학습에서 상담원은 레이블이 지정되지 않은 데이터 내의 구조를 발견하여 학습합니다. RL 상담원은 경험을 바탕으로 구조를 발견하는 것이 도움이 될 수 있지만 RL의 유일한 목적은 보상 신호를 극대화하는 것입니다.
주제
강화 학습이 중요한 이유는 무엇입니까?
RL은 공급망 관리, HVAC 시스템, 산업용 로봇, 게임 인공 지능, 대화 시스템 및 자율 주행 자동차와 같은 크고 복잡한 문제를 해결하는 데 매우 적합합니다. RL 모델은 에이전트가 취하는 모든 행동에 대해 보상과 처벌을 받는 연속 프로세스를 통해 학습하기 때문에 동적인 환경에서 불확실성이 존재할 때 시스템이 의사를 결정하도록 훈련할 수 있습니다.
마코프 의사결정 과정(MDP)
RL은 마코프 의사결정 과정(MDP)라는 모델을 기반으로 합니다. MDP는 일련의 시간 단계로 구성됩니다. 각 시간 단계는 다음과 같은 요소로 구성됩니다.
- Environment
-
RL 모델이 작동하는 공간을 정의합니다. 이러한 공간은 실제 환경 또는 시뮬레이터일 수 있습니다. 예를 들어, 실제 도로에서 자율 주행 차량을 훈련하는 경우는 환경이 실제 환경입니다. 도로 위를 주행하는 자율 주행 차량을 모델링하는 컴퓨터 프로그램을 훈련하는 경우에는 환경이 시뮬레이터입니다.
- 시/도
-
환경에 대한 모든 정보와 미래와 관련된 과거의 모든 단계를 지정합니다. 예를 들어, 로봇이 어떤 방향으로든 어떤 방향으로나 움직일 수 있는 RL 모델에서는 현재 시간 스텝에서의 로봇의 위치가 상태입니다. 로봇이 어디에 있는지 알면 로봇에 도달하는 데 필요한 단계를 알 필요가 없기 때문입니다.
- 작업
-
작업은 에이전트가 수행합니다. 예를 들어 로봇이 앞으로 나아갑니다.
- 보상
-
에이전트가 수행한 마지막 작업의 상태 값을 나타내는 숫자입니다. 예를 들어, 목표가 로봇이 보물을 찾도록 하는 것이라면 보물을 찾은 경우 보상이 5이고, 보물을 찾지 못한 경우에는 보상이 0일 수 있습니다. RL 모델은 장기간 누적된 보상을 최적화하는 전략을 찾으려고 합니다. 이러한 전략을 정책이라고 합니다.
- 관측치
-
각 단계마다 에이전트가 사용할 수 있는 환경 상태에 대한 정보입니다. 전체 상태이거나 상태의 일부분일 수 있습니다. 예를 들어, 체스 시합 모델의 에이전트는 모든 단계에서 체스판의 전체 상태를 관찰할 수 있지만 미로 속의 로봇은 현재 마주하고 있는 미로의 작은 부분 밖에 관찰할 수 없습니다.
일반적으로 RL의 훈련은 많은 에피소드로 구성됩니다. 에피소드는 초기 상태에서 환경이 최종 상태에 도달할 때까지 MDP의 모든 시간 단계로 구성됩니다.
아마존의 주요 기능 SageMaker RL
에서 RL 모델을 훈련시키려면 SageMaker RL, 다음 구성 요소를 사용합니다.
-
딥 러닝(DL) 프레임워크. 현재는, SageMaker RL 입력 지원 TensorFlow 그리고 아파치 MXNet.
-
RL 도구 키트. RL 툴킷은 에이전트와 환경 간의 상호 작용을 관리하고 다양한 최첨단 RL 알고리즘을 제공합니다. SageMaker 인텔 코치 및 Ray RLLib 툴킷을 지원합니다. Intel Coach에 대한 자세한 정보는 https://nervanasystems.github.io/coach/
를 참조하십시오. Ray RLlib에 대한 자세한 정보는 https://ray.readthedocs.io/en/latest/rllib.html 을 참조하십시오. -
RL 환경. 사용자 지정 환경, 오픈 소스 환경 또는 상용 환경을 사용할 수 있습니다. 자세한 내용은 아마존의 RL 환경 SageMaker을 참조하세요.
다음 다이어그램은 에서 지원되는 RL 구성 요소를 보여 줍니다. SageMaker RL.

강화 학습 샘플 노트북
다음 표에는 Amazon의 다양한 사용 사례를 다루는 다양한 샘플 노트북이 요약되어 있습니다. SageMaker 강화 학습.
노트북 제목 | 설명 |
---|---|
이 노트북은 배치 RL을 사용하여 오프라인 데이터셋에서 새 정책을 트레이닝하는 방법을 보여줍니다. |
|
이 노트북은 RL의 카트 폴 밸런싱 문제를 해결하는 방법을 보여줍니다. |
|
이 노트북은 RL을 사용하여 배낭 문제를 해결하는 방법과 방법을 보여줍니다.SageMaker 관리형 스팟 훈련 |
|
이 노트북은 RL로 산악 차량 제어 문제를 해결하는 방법을 보여줍니다. |