DeepRacerConcepts et terminologie AWS

AWS DeepRacer s'appuie sur les concepts suivants et utilise la terminologie suivante.

DeepRacerService AWS

AWS DeepRacer est un service d'apprentissage automatique d'AWS qui permet d'explorer l'apprentissage par renforcement axé sur les courses autonomes. Le DeepRacer service AWS prend en charge les fonctionnalités suivantes :

Formation d’un modèle d'apprentissage par renforcement sur le cloud.
Évaluez un modèle entraîné dans la DeepRacer console AWS.
Soumission d'un modèle formé à une course virtuelle et, si le modèle remplit les conditions requises, publication de ses performances sur le tableau des scores de l'événement.
Clonez un modèle entraîné pour poursuivre l'entraînement et améliorer les performances.
Téléchargez les artefacts du modèle entraîné pour les charger sur un DeepRacer véhicule AWS.
Placement d'un véhicule sur une piste physique pour une conduite autonome et évaluation du modèle pour connaître ses performances en conditions réelles.
Élimination des frais superflus par la suppression des modèles dont vous n'avez pas besoin.

AWS DeepRacer

« AWS DeepRacer » peut faire référence à trois véhicules différents :

La voiture de course virtuelle peut prendre la forme de l'DeepRacerappareil AWS d'origine, de l'appareil Evo ou de diverses récompenses numériques pouvant être obtenues en participant aux courses du circuit virtuel de l'AWS DeepRacer League. Vous pouvez également personnaliser la voiture virtuelle en modifiant sa couleur.
L'DeepRacerappareil AWS d'origine est une maquette de voiture physique à l'échelle 1/18e. Il est équipé d'une caméra et d'un module de calcul embarqué. Le module de calcul exécute une inférence afin de se conduire lui-même tout au long de la piste. Le module de calcul et le châssis du véhicule sont alimentés par des batteries dédiées appelées respectivement batterie de calcul et batterie de propulsion.
L'appareil AWS DeepRacer Evo est l'appareil d'origine avec un kit de capteurs en option. Le kit comprend une caméra supplémentaire et un LIDAR (détection et télémétrie de la lumière), qui permettent à la voiture de détecter les objets situés derrière elle et latéralement par rapport à elle-même. Le kit comprend également une nouvelle coque.

Apprentissage par renforcement

L'apprentissage par renforcement est une méthode d'apprentissage automatique qui met l'accent sur la prise de décision autonome par un agent afin d'atteindre des objectifs spécifiques grâce à des interactions avec un environnement. Dans l'apprentissage par renforcement, l'apprentissage passe par une phase de tâtonnements et la formation ne nécessite pas d'entrées caractérisées. L'entraînement repose sur l'hypothèse de la récompense, selon laquelle tous les objectifs peuvent être atteints en maximisant une récompense future après des séquences d'action. En matière d'apprentissage par renforcement, la conception de la fonction de récompense est importante. Des fonctions de récompense mieux conçues permettent à l'agent de prendre de meilleures décisions.

Dans le cas des courses autonomes, l'agent est un véhicule. L'environnement se compose de routes et d'état du trafic. L'objectif est que le véhicule arrive à sa destination rapidement et sans accident. Les récompenses sont matérialisées par des scores qui visent à encourager un passage sûr et rapide jusqu'à destination. Les scores pénalisent la conduite dangereuse et inefficace.

Pour encourager l'apprentissage au cours de formation, l'agent en apprentissage doit être autorisé à effectuer des actions qui peuvent ne pas entraîner des récompenses. C'est ce que l'on appelle le compromis entre exploration et exploitation. Il s'agit d'une pratique qui contribue à limiter voire à éliminer les chances que l'agent fasse fausse route.

Pour obtenir une définition plus complète, veuillez consulter apprentissage par renforcement sur Wikipédia.

Modèle d'apprentissage par renforcement

Un modèle d'apprentissage par renforcement est un environnement dans lequel un agent agit et qui établit trois choses : les états dans lesquels se trouve l'agent, les actions qu'il peut entreprendre et les récompenses qu'il reçoit en agissant. La stratégie avec laquelle l'agent décide de son action est appelée politique. La politique prend en compte l'état de l'environnement en entrée pour déterminer l'action à effectuer en sortie. Dans l'apprentissage par renforcement, la politique est souvent représentée par un réseau neuronal profond. C'est ce que nous appelons le modèle d'apprentissage par renforcement. Chaque tâche de formation génère un modèle. Un modèle peut être généré même si la tâche de formation est arrêtée prématurément. Un modèle est immuable, ce qui signifie qu'il ne peut plus être modifié et remplacé une fois qu'il a été créé.

DeepRacerSimulateur AWS

Le DeepRacer simulateur AWS est un environnement virtuel permettant de visualiser la formation et d'évaluer les DeepRacer modèles AWS.

DeepRacerVéhicule AWS

Consultez AWS DeepRacer.

DeepRacerVoiture AWS

Ce type de DeepRacervéhicule AWS est un modèle réduit à l'échelle 1/18e.

Tableau des scores

Un classement est une liste classée des performances des DeepRacer véhicules AWS lors d'un événement de course de l'AWS DeepRacer League. La course peut être un évènement virtuel dans l'environnement simulé ou un événement physique dans un environnement réel. L'indicateur de performance dépend du type de course. Il peut s'agir du meilleur temps au tour, du temps total ou du temps moyen au tour soumis par DeepRacer les utilisateurs d'AWS qui ont évalué leurs modèles entraînés sur une piste identique ou similaire à la piste donnée de la course.

Si un véhicule termine trois tours consécutivement, il remplit les conditions requises pour être classé dans un tableau des scores. Le temps au tour moyen pour les trois premiers tours consécutifs est soumis pour le classement.

Frameworks d'apprentissage automatique

Les frameworks d'apprentissage automatique sont les bibliothèques logicielles utilisées pour créer des algorithmes d'apprentissage automatique. Les frameworks pris en charge pour AWS DeepRacer incluent Tensorflow.

Réseau de politique

Le réseau de politique est le réseau neurononal qui est formé. Le réseau de stratégies prend les images vidéo qu'il reçoit en entrée et prédit les prochaines actions de l'agent. Selon l'algorithme, il peut aussi évaluer la valeur de l'état actuel de l’agent.

Algorithme d'optimisation

L'algorithme d'optimisation est l'algorithme qui sert à former un modèle. Dans le cas des formations supervisées, il est optimisé en minimisant une fonction de perte à l’aide d’une stratégie particulière pour mettre à jour les pondérations. Dans le cas de l'apprentissage par renforcement, il est optimisé en maximisant les récompenses futures attendues à l’aide d’une fonction de récompenses particulière.

Réseau neuronal

Un réseau neuronal (également appelé réseau neuronal artificiel) est un ensemble d'unités ou de nœuds connectés qui sont utilisés pour créer un modèle d'information basé sur des systèmes biologiques. Chaque nœud est appelé neurone artificiel et imite un neurone biologique en ce sens qu'il reçoit une entrée (stimulus), est activé si le signal d'entrée est suffisamment fort (activation) et produit une sortie basée sur l'entrée et l'activation. Il est couramment utilisé en Machine Learning, car un réseau neuronal artificiel peut être utilisé comme approximation générale pour n'importe quelle fonction. Apprendre aux machines à apprendre revient à trouver l'approximation de fonction optimale pour l'entrée et la sortie données. Dans le contexte de l'apprentissage par renforcement profond, le réseau neuronal représente la politique et est souvent désigné comme le réseau de politique. La formation du réseau de politiques revient à passer par étapes qui impliquent de générer des expériences basées sur la politique actuelle, puis d'optimiser le réseau de politiques avec les expériences nouvellement générées. Le processus se poursuit jusqu'à ce que certaines métriques de performance répondent aux critères requis.

Hyperparamètres

Les hyperparamètres sont des variables dépendantes de l'algorithme qui contrôlent les performances de l'entraînement des réseaux neuronaux. Un exemple d'hyperparamètre est le taux d'apprentissage qui contrôle le nombre de nouvelles expériences prises en compte dans l'apprentissage à chaque étape. Un taux d'apprentissage plus élevé entraîne une formation plus rapide, mais peut nuire à la qualité du modèle entraîné. Par nature, les hyperparamètres sont empiriques et doivent être systématiquement réglés pour chaque formation.

DeepRacerSuivi AWS

Une piste est un chemin ou un parcours emprunté par un DeepRacer véhicule AWS. La piste peut exister dans un environnement simulé ou dans un environnement physique réel. Vous utilisez un environnement simulé pour entraîner un DeepRacer modèle AWS sur une piste virtuelle. La DeepRacer console AWS met à disposition des pistes virtuelles. Vous utilisez un environnement réel pour faire fonctionner un DeepRacer véhicule AWS sur une piste physique. L'AWS DeepRacer League propose des pistes physiques aux participants à l'événement pour qu'ils puissent s'affronter. Vous devez créer votre propre piste physique si vous souhaitez utiliser votre DeepRacer véhicule AWS dans toute autre situation. Pour en savoir plus sur la façon de créer votre propre circuit, voir Créer votre parcours physique.

Fonction de récompense

Une fonction de récompense est un algorithme intégré à un modèle d'apprentissage qui indique à l'agent si l'action effectuée a entraîné :

Un bon résultat qui doit être renforcé.
Un résultat neutre.
Un mauvais résultat qui doit être déconseillé.

La fonction de récompense est un élément essentiel de l'apprentissage par renforcement. Elle détermine le comportement que l'agent apprend en encourageant certaines actions plutôt que d'autres. L'utilisateur fournit la fonction de récompense à l'aide de Python. Cette fonction de récompense est utilisée par un algorithme d’optimisation pour former le modèle d'apprentissage par renforcement.

Épisode d'expérience

Un épisode d'expérience est une période au cours de laquelle l'agent collecte des expériences sous forme de données d'entraînement issues de l'environnement en partant d'un point de départ donné pour terminer la piste ou en sortir. Différents épisodes peuvent avoir des longueurs différentes. On parle également d'épisode ou d'épisode générateur d'expérience.

Itération d'expérience

L'itération d'expérience (également appelée itération génératrice d'expérience) est un ensemble d'expériences consécutives entre chaque itération de politique qui effectue des mises à jour des pondérations du réseau de politiques. À la fin de chaque itération d’expérience, les épisodes collectés sont ajoutés à une reproduction d’expérience ou à un tampon d’expérience. La taille peut être définie dans l'un des hyperparamètres d'entraînement. Le réseau neuronal est mis à jour en utilisant des échantillons aléatoires des expériences.

Itération de politique

L'itération des politiques (également appelée itération de mise à jour des politiques) consiste en un nombre quelconque de passages à travers les données d'entraînement échantillonnées de manière aléatoire afin de mettre à jour les poids du réseau neuronal des politiques lors de l'ascension du gradient. Le simple passage des données d'entraînement pour mettre à jour les poids est également appelé époque.

Tâche de formation

Une tâche de formation est une charge de travail qui entraîne un modèle d'apprentissage par renforcement et crée des artefacts de modèle entraînés sur lesquels effectuer des inférences. Chaque tâche de formation comprend deux sous-processus :

Le démarrage de l'agent pour suivre la politique actuelle. L'agent explore l'environnement dans un certain nombre d'épisodes et génère des données de formation. Ce processus de génération de données est un processus itératif.
L’application des nouvelles données de formation pour calculer les gradients de la nouvelle politique. Mettez à jour les pondérations du réseau et poursuivez la formation. Répétez l'étape 1 jusqu'à ce qu'une condition d’arrêt soit remplie.

Chaque tâche de formation génère un modèle formé et enregistre les artefacts du modèle dans un magasin de données spécifié.

Tâche d'évaluation

Une tâche d'évaluation est une charge de travail qui teste les performances d'un modèle. Les performances sont mesurées par des métriques données une fois la tâche de formation terminée. L'indicateur de DeepRacer performance standard d'AWS est le temps de conduite qu'un agent met pour effectuer un tour sur une piste. Une autre métrique est le pourcentage de la piste qui a été parcouru.

Terminologie des événements de course

Les événements DeepRacer de course AWS utilisent les concepts et la terminologie suivants.

Ligue/Compétition: Dans le contexte des événements de l'AWS DeepRacer League, les termes ligue et compétition font référence à la structure de la compétition. AWSsponsorise l'AWS DeepRacer League, ce qui signifie que nous en sommes propriétaires, que nous la concevons et que nous la gérons. Une compétition a une date de début et une date de fin.
Saison: Une compétition peut se répéter d’année en année. Nous appelons cela des saisons (par exemple, la saison 2019 ou 2020). Les règles peuvent changer d'une saison à l'autre, mais elles sont généralement cohérentes au cours d'une saison. Les conditions générales de l'AWS DeepRacer League peuvent varier d'une saison à l'autre.
Le circuit virtuel: Le circuit virtuel fait référence aux courses sponsorisées AWS qui se déroulent sur la DeepRacer console AWS pendant la saison de l'AWS DeepRacer League.
Événement: Selon les règles, un événement est un événement de l'AWS DeepRacer League auquel vous pouvez participer à une course. Un événement a une date de début et une date de fin. Les événements du Circuit virtuel durent généralement un mois. Une saison peut comporter de nombreux événements, et certaines règles, telles que la façon dont nous classons les participants à un événement, sélectionnons les gagnants et ce qui se passe par la suite, sont susceptibles d'être modifiées.
Type de course: Tous les coureurs peuvent participer à des courses de contre-la-montre (TT), d'évitement d'objets (OA) ou head-to-bot (H2B). Chaque type de course précisera le nombre de tours et le classement des coureurs.
Classement national de la saison: Le classement d'une saison nationale fait référence au classement d'un coureur parmi les autres coureurs de son pays. Tous les coureurs peuvent affronter d'autres coureurs de leur pays lors de courses virtuelles mensuelles.
Classement régional de la saison: Le classement régional d'une saison fait référence au classement d'un coureur parmi les autres coureurs de sa région.
Championnat du monde: Le classement mensuel du Circuit virtuel de l'AWS DeepRacer League est divisé par pays et par région. Les meilleurs coureurs de chaque région auront l'opportunité de se qualifier pour les championnats du monde à AWS re:Invent. Pour plus d'informations, consultez les conditions générales.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Découvrez l'apprentissage par renforcement

Comment ça marche