Treinar um modelo de aprendizado por reforço no AWS DeepRacer Student - AWS DeepRacer Estudante

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Treinar um modelo de aprendizado por reforço no AWS DeepRacer Student

Este passo a passo demonstra como treinar seu primeiro modelo no AWS DeepRacer Student. Ele também fornece algumas dicas úteis para ajudá-lo a aproveitar ao máximo sua experiência e acelerar seu aprendizado.

Etapa 1: Treine um modelo de aprendizado por reforço usando o AWS DeepRacer Student

Comece sua jornada no AWS DeepRacer Student aprendendo onde encontrar o botão Criar modelo e comece a treinar seu primeiro modelo. Lembre-se de que criar e treinar um modelo é um processo iterativo. Experimente diferentes algoritmos e funções de recompensa para obter os melhores resultados.

Treinar um modelo de aprendizagem por reforço
  1. Na página inicial do AWS DeepRacer Student, escolha Criar modelo. Como alternativa, navegue até Seus modelos no painel de navegação esquerdo. Na página Modelos, em Seus modelos, escolha Criar modelo.

  2. Na página Visão geral, leia sobre como treinar um modelo por reforço. Cada etapa do processo é explicada nesta página. Quando terminar a leitura, clique em Próximo.

Etapa 2: Nomeie seu modelo

Dê um nome ao seu modelo. É uma boa prática dar nomes exclusivos aos seus modelos para localizar rapidamente modelos individuais quando quiser aprimorá-los e cloná-los. Por exemplo, talvez você queira nomear seus modelos usando uma convenção de nomenclatura como: suasiniciais-data-versão.

Nomear seu modelo
  1. Na página Nomear seu modelo, insira um nome no campo Nome do modelo.

    nota

    Quando você começa a treinar um modelo, o nome torna-se fixo e não pode mais ser alterado.

  2. Escolha Próximo.

Etapa 3: Escolha sua pista

Escolha sua pista de simulação. A pista serve como ambiente e fornece dados para o seu carro. Se você escolher uma pista muito complexa, seu carro exigirá um tempo de treinamento maior e a função de recompensa usada será mais complexa.

Escolher sua pista (ambiente)
  1. Na página Escolher pista, escolha uma pista para servir como ambiente de treinamento para seu carro.

  2. Escolha Próximo.

Etapa 4: Escolha um algoritmo

O AWS DeepRacer Student tem dois algoritmos de treinamento que podem ser escolhidos. Algoritmos diferentes maximizam as recompensas de diferentes maneiras. Para aproveitar ao máximo sua experiência com o AWS DeepRacer Student, experimente os dois algoritmos. Para mais informações sobre algoritmos, consulte o AWS DeepRacer Training Algorithms.

Escolher um algoritmo de treinamento
  1. Na página Escolher tipo de algoritmo, selecione um tipo de algoritmo. Dois tipos de algoritmos estão disponíveis:

    • Proximal Policy Optimization (PPO). Esse algoritmo estável, mas que consome muitos dados, funciona de forma consistente entre as iterações de treinamento.

    • Soft Actor Critic (SAC). Esse algoritmo instável, mas eficiente em termos de dados, pode funcionar de forma inconsistente entre as iterações de treinamento.

  2. Escolha Próximo.

Etapa 5: Personalize sua função de recompensa

A função de recompensa é uma parte importante do aprendizado por reforço. Use-a para incentivar seu carro (atendente) a realizar ações específicas ao explorar a pista (ambiente). Assim como você incentivaria ou não certos comportamentos em um animal de estimação, você pode usar essa ferramenta para incentivar seu carro a terminar uma volta o mais rápido possível e não o incentivar a sair da pista e ziguezaguear.

Ao treinar seu primeiro modelo, use uma função de recompensa de amostra padrão. Quando estiver pronto para experimentar e otimizar seu modelo, personalize a função de recompensa no editor de código. Para mais informações sobre como personalizar função de recompensa, consulte Personalizar uma função de recompensa.

Personalizar sua função de recompensa
  1. Na página Personalizar função de recompensa, escolha uma amostra de função de recompensa. Há três amostras de funções de recompensa disponíveis para personalizar:

    • Siga a linha central. Recompensa seu carro quando ele dirige de forma autônoma o mais próximo possível da linha central da pista.

    • Fique dentro das fronteiras. Recompensa seu carro quando ele dirige de forma autônoma, com as quatro rodas dentro da pista.

    • Evite o ziguezague. Recompensa seu carro por ficar perto da linha central. Penaliza seu carro se ele usar ângulos de direção grandes ou sair da pista.

    nota

    Se você não quiser personalizar a função de recompensa, escolha Próximo.

  2. (opcional) Modifique o código da função de recompensa.

    • Selecione uma amostra de função de recompensa e escolha Explique-me este código.

    • Para cada seção do código, veja mais informações selecionando o + e leia um pop-up com texto explicativo. Prossiga na explicação passo a passo do código escolhendo Next (Próximo) em cada pop-up. Para sair de um pop-up, escolha o X no canto. Para sair do passo a passo, escolha Concluir.

      nota

      Escolha não editar o código da amostra da função de recompensa selecionando Continuar com o código padrão.

    • Edite o código da amostra da função de recompensa selecionando uma das amostras e clicando em Editar código da amostra. Edite o código e selecione Validar para verificar seu código. Se o seu código não for validado ou se quiser deixá-lo como no original, escolha Redefinir.

  3. Escolha Próximo.

Etapa 6: Escolha a duração e envie seu modelo para o placar

A duração do treinamento do seu modelo afeta o seu desempenho. Na fase inicial, ao experimentar o treinamento, comece com um valor pequeno para esse parâmetro e vá progressivamente treinando por mais tempo.

Nesta etapa do treinamento, seu modelo é submetido a um placar. Você pode desmarcar a caixa de seleção para cancelar.

Escolha a duração e envie um modelo para o placar
  1. Na página Escolher duração, selecione um tempo em Escolher a duração de treinamento do modelo.

  2. No campo Descrição do modelo, insira uma descrição prática para seu modelo que o ajudará a lembrar as seleções feitas.

    dica

    É uma boa prática adicionar informações sobre seu modelo, como seleções e modificações atuais da função de recompensa e do algoritmo, bem como sua hipótese sobre o desempenho do modelo.

  3. Marque a caixa de seleção para que seu modelo seja enviado automaticamente para o placar do AWS DeepRacer Student após a conclusão do treinamento. Você pode também deixar de inserir seu modelo, desmarcando a caixa de seleção.

    dica

    Recomendamos que você envie seu modelo para o placar. Enviá-lo permite que você o compare a outros modelos e fornece feedback para que você possa melhorá-lo.

  4. Escolha Treinar seu modelo.

  5. No pop-up Iniciando o treinamento do modelo, escolha OK.

  6. Na página Configurar treinamento, revise o status e a configuração do treinamento do seu modelo. Veja também um vídeo do seu modelo de treinamento na pista selecionada quando o Status do treinamento for Em andamento. Assistir ao vídeo pode ajudá-lo a desenvolver informações valiosas e usá-las para melhorar seu modelo.

Etapa 7: Veja o desempenho do seu modelo no placar

Depois de treinar seu modelo e enviá-lo para um placar, veja seu desempenho.

Ver o desempenho do seu modelo
  1. No painel de navegação à esquerda, escolha e amplie Competir. Escolha uma temporada. Na página Placar, seu modelo e sua classificação aparecem em uma seção. A página também inclui a seção Placar com uma lista dos modelos enviados, detalhes da corrida, além de uma seção com Detalhes da corrida.

  2. Na página do placar, na seção com seu perfil, selecione Assistir vídeo e veja o desempenho do seu modelo.

Etapa 8: Use Clonar para melhorar seu modelo

Depois de treinar e enviar seu modelo para um placar, caso tenha escolhido essa opção, é possível cloná-lo e melhorá-lo. A clonagem economiza etapas e torna o treinamento mais eficiente ao usar um modelo já treinado como ponto de partida para um novo modelo.

Clonar e melhorar um modelo
  1. No painel de navegação esquerdo do AWS DeepRacer Student, clique em Seus modelos.

  2. Na página Seus modelos, selecione um modelo e escolha Clonar.

  3. No campo Nomear seu modelo, dê um outro nome para seu modelo clonado e escolha Próximo.

  4. Na página Personalizar uma função de recompensa, escolha Próximo após fazê-la. Para mais informações sobre como personalizar função de recompensa, consulte Etapa 5: Personalize sua função de recompensa.

  5. Na página Escolher duração, insira um tempo no campo Escolher duração de treinamento do modelo, insira uma descrição no campo Descrição do modelo e selecione a caixa de seleção para enviar o modelo clonado para o placar.

  6. Escolha Treinar seu modelo. Seu treinamento é iniciado. A página Configurar treinamento é exibida com informações sobre seu modelo clonado. Veja também um vídeo do seu modelo de treinamento na pista selecionada quando o Status do treinamento for Em andamento.

  7. Continue clonando e modificando seus modelos já treinados para ter melhor desempenho no placar.

Etapa 9: (opcional) Baixar um modelo

Depois de treinar e enviar seu modelo para um placar, caso tenha escolhido essa opção, é possível baixá-lo para uso futuro em um dispositivo físico do AWS DeepRacer. Seu modelo é salvo como um arquivo .tar.gz.

Baixar um modelo
  1. No painel de navegação esquerdo do AWS DeepRacer Student, clique em Seus modelos.

  2. Na página Seus modelos, selecione um modelo e escolha Baixar.

  3. Acompanhe o andamento do download do modelo em seu navegador. Depois de baixado, é possível salvá-lo no disco rígido local ou em outro dispositivo de armazenamento de sua preferência.

    Para saber mais sobre como trabalhar com dispositivos do AWS DeepRacer, consulte Operar seu veículo AWS DeepRacer no guia AWS DeepRacer.