Formation d'un modèle d'apprentissage par renforcement dans AWS DeepRacer Student - AWS DeepRacer Étudiant

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Formation d'un modèle d'apprentissage par renforcement dans AWS DeepRacer Student

Cette procédure pas à pas explique comment entraîner votre premier modèle dans AWS DeepRacer Student. Il vous fournit également des conseils utiles pour vous aider à tirer le meilleur parti de votre expérience et à accélérer votre apprentissage.

Étape 1 : Former un modèle d'apprentissage par renforcement à l'aide de AWS DeepRacer Student

Commencez votre parcours dans AWS DeepRacer Student en découvrant où se trouve le bouton Créer un modèle et commencez à entraîner votre premier modèle. N'oubliez pas que la création et la formation d'un modèle sont un processus itératif. Testez différents algorithmes et fonctions de récompense pour obtenir les meilleurs résultats.

Pour former un modèle d'apprentissage par renforcement
  1. Sur la page AWS DeepRacer d'accueil de l'étudiant, choisissez Créer un modèle. Vous pouvez également accéder à Vos modèles dans le volet de navigation de gauche. Sur la page Modèles, dans Vos modèles, sélectionnez Créer un modèle.

  2. Dans la page Vue d'ensemble, découvrez comment entraîner un modèle de renforcement. Chaque étape du processus est expliquée sur cette page. Lorsque vous avez fini de lire, choisissez Next.

Étape 2 : Donnez un nom à votre modèle

Donnez un nom à votre modèle. Il est recommandé de donner des noms uniques à vos modèles afin de les localiser rapidement lorsque vous souhaitez les améliorer et les cloner. Par exemple, vous souhaiterez peut-être nommer vos modèles en utilisant une convention de dénomination telle que : yourinitials-date-version.

Pour donner un nom à votre modèle
  1. Sur la page Nommez votre modèle, entrez un nom dans le champ Nom du modèle.

    Note

    Lorsque vous commencez à entraîner un modèle, le nom du modèle devient fixe et n'est plus modifiable.

  2. Choisissez Suivant.

Étape 3 : Choisissez votre piste

Choisissez votre piste de simulation. La piste sert d'environnement et fournit des données à votre voiture. Si vous choisissez un circuit très complexe, votre voiture nécessite un temps d'entraînement total plus long et la fonction de récompense que vous utilisez est plus complexe.

Pour choisir votre piste (environnement)
  1. Sur la page Choisir une piste, choisissez une piste qui servira d'environnement d'entraînement pour votre voiture.

  2. Choisissez Suivant.

Étape 4 : Choisissez un algorithme

L'AWS DeepRacer étudiant a le choix entre deux algorithmes d'entraînement. Différents algorithmes maximisent les récompenses de différentes manières. Pour tirer le meilleur parti de votre expérience AWS DeepRacer étudiante, testez les deux algorithmes. Pour plus d'informations sur les algorithmes, consultez la section Algorithmes d'AWS DeepRacer entraînement.

Pour choisir un algorithme d'entraînement
  1. Sur la page Choisir un type d'algorithme, sélectionnez un type d'algorithme. Deux types d'algorithmes sont disponibles :

    • Optimisation des politiques proximales (PPO). Cet algorithme stable mais gourmand en données fonctionne de manière cohérente entre les itérations d'entraînement.

    • Critique d'acteur doux (SAC). Cet algorithme instable mais économe en données peut fonctionner de manière incohérente entre les itérations d'entraînement.

  2. Choisissez Suivant.

Étape 5 : Personnalisez votre fonction de récompense

La fonction de récompense est au cœur de l'apprentissage par renforcement. Utilisez-le pour inciter votre voiture (agent) à prendre des mesures spécifiques lorsqu'elle explore la piste (environnement). Tout comme vous pouvez encourager ou décourager certains comportements chez un animal de compagnie, vous pouvez utiliser cet outil pour encourager votre voiture à terminer un tour le plus vite possible et pour la dissuader de sortir de la piste et de zigzaguer.

Lorsque vous entraînez votre premier modèle, vous souhaiterez peut-être utiliser un exemple de fonction de récompense par défaut. Lorsque vous êtes prêt à expérimenter et à optimiser votre modèle, vous pouvez personnaliser la fonction de récompense en modifiant le code dans l'éditeur de code. Pour plus d'informations sur la personnalisation de la fonction de récompense, consultezPersonnalisation d'une fonction de récompense.

Pour personnaliser votre fonction de récompense
  1. Sur la page Personnaliser la fonction de récompense, choisissez un exemple de fonction de récompense. Il existe 3 exemples de fonctions de récompense que vous pouvez personnaliser :

    • Suivez la ligne médiane. Récompensez votre voiture lorsqu'elle roule de manière autonome le plus près possible de l'axe de la piste.

    • Restez à l'intérieur des frontières. Récompense votre voiture lorsqu'elle roule de manière autonome, les quatre roues restant dans les limites de la piste.

    • Empêchez le zig-zag. Récompensez votre voiture si vous restez près de la ligne médiane. Cela pénalise votre voiture si elle utilise des angles de braquage élevés ou s'il sort de la piste.

    Note

    Si vous ne souhaitez pas personnaliser la fonction de récompense, choisissez Next.

  2. (Facultatif) Modifiez le code de la fonction de récompense.

    • Sélectionnez un exemple de fonction de récompense et choisissez Walk me through this code.

    • Pour chaque section du code, vous pouvez afficher plus d'informations en sélectionnant le signe + pour afficher une zone de texte contextuelle contenant un texte explicatif. Progressez dans la procédure pas à pas du code en choisissant Suivant dans chaque fenêtre contextuelle. Pour quitter une zone de texte contextuelle, cliquez sur le X dans le coin. Pour quitter la procédure pas à pas, choisissez Terminer.

      Note

      Vous pouvez choisir de ne pas modifier l'exemple de code de fonction de récompense en sélectionnant OK avec le code par défaut.

    • Vous pouvez éventuellement modifier l'exemple de code de fonction de récompense en sélectionnant un exemple de fonction de récompense et en choisissant Modifier l'exemple de code. Modifiez le code et sélectionnez Valider pour vérifier votre code. Si votre code ne peut pas être validé ou si vous souhaitez rétablir son état d'origine, choisissez Réinitialiser.

  3. Choisissez Suivant.

Étape 6 : Choisissez la durée et soumettez votre modèle au classement

La durée de l'entraînement de votre modèle influe sur ses performances. Lorsque vous expérimentez au début de l'entraînement, vous devez commencer par une petite valeur pour ce paramètre, puis vous entraîner progressivement pendant de plus longues périodes.

Au cours de cette étape de formation de votre modèle, celui-ci est soumis à un classement. Vous pouvez vous désinscrire en décochant la case.

Pour choisir la durée et soumettre un modèle au classement
  1. Sur la page Choisir la durée, sélectionnez une heure dans Choisir la durée de l'entraînement du modèle.

  2. Dans le champ Description du modèle, entrez une description utile de votre modèle qui vous aidera à vous souvenir des sélections que vous avez effectuées.

    Astuce

    Il est recommandé d'ajouter des informations sur votre modèle, telles que les sélections et modifications actuelles de la fonction de récompense et de l'algorithme, ainsi que votre hypothèse sur les performances du modèle.

  3. Cochez la case pour que votre modèle soit automatiquement soumis au classement des AWS DeepRacer étudiants une fois la formation terminée. Vous pouvez éventuellement choisir de ne pas saisir votre modèle en décochant la case.

    Astuce

    Nous vous recommandons de soumettre votre modèle au classement. La soumission de votre modèle vous permet de voir comment votre modèle se compare aux autres et vous fournit des commentaires afin que vous puissiez améliorer votre modèle.

  4. Choisissez Entraînez votre modèle.

  5. Dans la fenêtre contextuelle Initialisation de l'entraînement du modèle, sélectionnez OK.

  6. Sur la page de configuration de l'entraînement, vous pouvez consulter le statut et la configuration de l'entraînement de votre modèle. Vous pouvez également visionner une vidéo de l'entraînement de votre modèle sur la piste sélectionnée lorsque le statut de l'entraînement est En cours. Le visionnage de la vidéo peut vous aider à acquérir des informations précieuses que vous pourrez utiliser pour améliorer votre modèle.

Étape 7 : Afficher les performances de votre modèle dans le classement

Après avoir entraîné votre modèle et l'avoir soumis à un classement, vous pouvez consulter ses performances.

Pour consulter les performances de votre modèle
  1. Dans le volet de navigation de gauche, accédez à Compete et développez-le. Choisissez une saison. Sur la page du classement, votre modèle et votre classement apparaissent dans une section. La page comprend également une section du classement avec une liste des modèles soumis, les détails de la course et une section des détails de la course.

  2. Sur la page qui affiche le classement, dans la section contenant votre profil, sélectionnez Regarder la vidéo pour visionner une vidéo des performances de votre modèle.

Étape 8 : utilisez Clone pour améliorer votre modèle

Une fois que vous vous êtes entraîné et que vous avez éventuellement soumis votre modèle à un classement, vous pouvez le cloner pour l'améliorer. Le clonage de votre modèle vous permet d'économiser des étapes et de rendre l'entraînement plus efficace en utilisant un modèle déjà entraîné comme point de départ pour un nouveau modèle.

Pour cloner et améliorer un modèle
  1. Dans AWS DeepRacer Student, dans le volet de navigation de gauche, accédez à Vos modèles.

  2. Sur la page Vos modèles, sélectionnez un modèle et choisissez Cloner.

  3. Dans le champ Nommez votre modèle, saisissez un nouveau nom pour votre modèle cloné et choisissez Next.

  4. Sur la page Personnaliser une fonction de récompense, personnalisez la fonction de récompense et choisissez Suivant. Pour plus d'informations sur la personnalisation de la fonction de récompense, consultezÉtape 5 : Personnalisez votre fonction de récompense.

  5. Sur la page Choisir la durée, entrez une durée dans le champ Choisir la durée de la formation du modèle, entrez une description dans le champ Description du modèle et cochez la case pour soumettre le modèle cloné au classement.

  6. Choisissez Entraînez votre modèle. Votre entraînement est initialisé. La page de configuration de l'entraînement apparaît avec des informations sur votre modèle cloné. Vous pouvez également visionner une vidéo de l'entraînement de votre modèle sur la piste sélectionnée lorsque le statut de l'entraînement est En cours.

  7. Continuez à cloner et à modifier vos modèles pré-entraînés pour obtenir les meilleures performances dans le classement.

Étape 9 : (Facultatif) Téléchargez un modèle

Après avoir entraîné un modèle et l'avoir éventuellement soumis au classement, vous souhaiterez peut-être le télécharger pour une utilisation future sur un appareil AWS DeepRacer physique. Votre modèle est enregistré sous forme de .tar.gz fichier.

Pour télécharger un modèle
  1. Dans AWS DeepRacer Student, dans le volet de navigation de gauche, accédez à Vos modèles.

  2. Sur la page Vos modèles, sélectionnez un modèle et choisissez Télécharger.

  3. Suivez la progression du téléchargement du modèle dans votre navigateur. Lorsque votre modèle est téléchargé, vous pouvez l'enregistrer sur votre disque dur local ou sur un autre périphérique de stockage préféré.

    Pour en savoir plus sur l'utilisation des AWS DeepRacer appareils, consultez la section Utiliser votre AWS DeepRacer véhicule dans le AWS DeepRacer guide.