Use a interface OpenAI Gym para ambientes em SageMaker AI RL Usar ambientes de código aberto Usar ambientes comerciais

Ambientes de RL na Amazon AI SageMaker

O Amazon SageMaker AI RL usa ambientes para imitar cenários do mundo real. Dado o estado atual do ambiente e uma ação tomada por um ou mais agentes, o simulador processa o impacto da ação e retorna o próximo estado e um prêmio. Simuladores são úteis nos casos em que não é seguro treinar um agente no mundo real (por exemplo, pilotar um drone) ou se o algoritmo de RL demora muito tempo para convergir (por exemplo, em um jogo de xadrez).

O diagrama a seguir mostra um exemplo das interações com um simulador para um jogo de corrida de carros.

O ambiente de simulação consiste em um agente e um simulador. Aqui, uma Rede neural convolucional (CNN) consome imagens do simulador e gera ações para controlar o controlador de jogo. Com várias simulações, esse ambiente gera dados de treinamento no formato state_t, action, state_t+1 e reward_t+1. Definir o prêmio não é um processo comum e afeta a qualidade do modelo de RL. Queremos dar alguns exemplos de funções de prêmio, mas gostaríamos de torná-los configuráveis pelo usuário.

Tópicos

Use a interface OpenAI Gym para ambientes em SageMaker AI RL
Usar ambientes de código aberto
Usar ambientes comerciais

Use a interface OpenAI Gym para ambientes em SageMaker AI RL

Para usar ambientes OpenAI Gym no SageMaker AI RL, use os seguintes elementos de API. Para obter mais informações sobre o OpenAI Gym, consulte a Documentação do Gym.

env.action_space: Define as ações que o agente pode realizar, especifica se cada ação é contínua ou discreta e especifica o mínimo e o máximo, se a ação for contínua.
env.observation_space: Define as observações que o agente recebe do ambiente, bem como o mínimo e o máximo para observações contínuas.
env.reset(): Inicializa um episódio de treinamento. A função reset() retorna o estado inicial do ambiente, e o agente usa o estado inicial para realizar sua primeira ação. A ação é então enviada ao step() repetidamente até que o episódio atinja um estado terminal. Quando step() retorna done = True, o episódio termina. O kit de ferramentas de RL reinicializa o ambiente chamando reset().
step(): Usa a ação do agente como entrada e produz o próximo estado do ambiente, o prêmio, independentemente de o episódio ter sido encerrado, e um dicionário info para comunicar informações de depuração. É responsabilidade do ambiente validar as entradas.
env.render(): Usada para ambientes que possuem visualização. O kit de ferramentas RL chama essa função para capturar visualizações do ambiente após cada chamada para a função step().

Usar ambientes de código aberto

Você pode usar ambientes de código aberto, como EnergyPlus e RoboSchool, no SageMaker AI RL criando seu próprio contêiner. Para obter mais informações sobre EnergyPlus, consulte https://energyplus.net/. Para obter mais informações sobre RoboSchool, consulte https://github.com/openai/roboschool. O HVAC e os RoboSchool exemplos no repositório de exemplos de SageMaker IA mostram como criar um contêiner personalizado para usar com SageMaker o AI RL:

Usar ambientes comerciais

Você pode usar ambientes comerciais, como MATLAB e Simulink, no SageMaker AI RL criando seu próprio contêiner. Você precisa gerenciar suas próprias licenças.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Exemplo de fluxo de trabalho de URL usando Amazon SageMaker AI RL

Treinamento distribuído com Amazon SageMaker AI RL