DeepRacerAWS-Konzepte und -Terminologie

AWS DeepRacer baut auf den folgenden Konzepten auf und verwendet die folgende Terminologie.

DeepRacerAWS-Service

AWS DeepRacer ist ein AWS-Dienst für maschinelles Lernen zur Erforschung von Reinforcement Learning, der sich auf autonome Rennen konzentriert. Der DeepRacer AWS-Service unterstützt die folgenden Funktionen:

Training eines Verstärkungslernmodells in der Cloud.
Bewerten Sie ein trainiertes Modell in der DeepRacer AWS-Konsole.
Einreichen eines trainierten Modells für ein virtuelles Rennen und Aufnahme von qualifizierten Modellen in die Rangliste der Veranstaltung.
Klonen Sie ein trainiertes Modell, um das Training fortzusetzen und die Leistung zu verbessern.
Laden Sie die trainierten Modellartefakte herunter, um sie auf ein DeepRacer AWS-Fahrzeug hochzuladen.
Platzieren des Fahrzeugs auf einer physischen Strecke für autonomes Fahren und bewerten der Leistung des Modells für die Praxis.
Eliminieren unnötiger Gebühren durch das Löschen nicht benötigter Modelle.

AWS DeepRacer

„AWSDeepRacer“ kann sich auf drei verschiedene Fahrzeuge beziehen:

Der virtuelle Rennwagen kann die Form des ursprünglichen DeepRacer AWS-Geräts, des Evo-Geräts oder verschiedener digitaler Prämien annehmen, die durch die Teilnahme an AWS DeepRacer League Virtual Circuit-Rennen verdient werden können. Sie können das virtuelle Auto auch anpassen, indem Sie seine Farbe ändern.
Das ursprüngliche DeepRacer AWS-Gerät ist ein physisches Modellauto im Maßstab 1:18. Es verfügt über eine montierte Kamera und ein Onboard-Rechenmodul. Das Rechenmodul sorgt für die Inferenz für das Fahren entlang der Strecke. Das Rechenmodul und das Fahrzeugchassis werden von speziellen Akkus versorgt, die als Rechenmodul-Akku bzw. Antriebsmodul-Akku bezeichnet werden.
Das AWS DeepRacer Evo-Gerät ist das Originalgerät mit einem optionalen Sensorkit. Das Kit enthält eine zusätzliche Kamera und LIDAR (Light Detection and Ranging), mit denen das Auto Objekte hinter und neben sich selbst erkennen kann. Das Kit enthält auch eine neue Schale.

Bestärkendes Lernen

Reinforcement Learning ist eine Methode des maschinellen Lernens, die sich auf die autonome Entscheidungsfindung durch einen Agenten konzentriert, um bestimmte Ziele durch Interaktionen mit einer Umgebung zu erreichen. Beim bestärkenden Lernen wird der Lerneffekt durch Versuch und Fehlschlag erreicht und das Training erfordert keine beschrifteten Eingaben. Das Training basiert auf der Belohnungshypothese, die besagt, dass alle Ziele erreicht werden können, indem eine zukünftige Belohnung nach Aktionssequenzen maximiert wird. Beim bestärkenden Lernen ist die Gestaltung der Belohnungsfunktion entscheidend. Besser gestaltete Belohnungsfunktionen führen zu besseren Entscheidungen des Agenten.

Für das autonome Rennen ist der Agent ein Fahrzeug. Die Umgebung umfasst Reiserouten und Verkehrsbedingungen. Das Ziel besteht darin, dass das Fahrzeug schnell und ohne Unfälle sein Ziel erreicht. Belohnungen sind Punkte, die dazu dienen, eine sichere und schnelle Reise zum Ziel zu ermöglichen. Die Punktzahl bestraft gefährliches und verschwenderisches Fahren.

Zur Unterstützung des Lernens während des Trainings muss der Lernagent manchmal Aktionen durchführen können, die nicht zu Belohnungen führen. Dies ist der Kompromiss zwischen Erkundung und Nutzen. Er hilft dabei, die Wahrscheinlichkeit zu verringern oder zu beseitigen, dass der Agent zu falschen Zielen irregeführt wird.

Eine formalere Definition finden Sie unter Reinforcement Learning (dt: Bestärkendes Lernen) auf Wikipedia.

Reinforcement-Learning-Modell

Ein Reinforcement Learning-Modell ist eine Umgebung, in der ein Agent handelt, die drei Dinge festlegt: Die Zustände, die der Agent hat, die Maßnahmen, die der Agent ergreifen kann, und die Belohnungen, die er durch das Ergreifen von Maßnahmen erhält. Die Strategie, mit der der Agent über sein Handeln entscheidet, wird als Richtlinie bezeichnet. Die Richtlinie nimmt den Umgebungszustand als Eingabe und gibt die jeweiligen Aktionen aus. Beim Reinforcement Learning wird die Strategie häufig durch ein tiefes neuronales Netzwerk repräsentiert. Wir bezeichnen dies als Reinforcement Learning-Modell. Jeder Trainingsauftrag erzeugt ein Modell. Auch bei vorzeitiger Beendigung des Trainingsauftrags kann ein Modell erstellt werden. Ein Modell ist unveränderlich, d. h. es kann nach der Erstellung nicht mehr geändert oder überschrieben werden.

DeepRacerAWS-Simulation

Der DeepRacer AWS-Simulator ist eine virtuelle Umgebung zur Visualisierung, Schulung und Bewertung von DeepRacer AWS-Modellen.

DeepRacerAWS-Fahrzeug

Siehe AWS DeepRacer.

DeepRacerAWS-Auto

Bei diesem DeepRacerAWS-Fahrzeugtyp handelt es sich um ein Modellauto im Maßstab 1:18.

Leaderboard

Eine Bestenliste ist eine Rangliste der Leistungen von DeepRacer AWS-Fahrzeugen in einer AWS DeepRacer League-Rennveranstaltung. Das Rennen kann ein virtuelles Event sein, das in der simulierten Umgebung durchgeführt wird, oder ein physisches Event, das in einer realen Umgebung durchgeführt wird. Die Leistungskennzahl hängt vom Renntyp ab. Dabei kann es sich um die schnellste Rundenzeit, Gesamtzeit oder durchschnittliche Rundenzeit handeln, die von DeepRacer AWS-Benutzern eingereicht wurde, die ihre trainierten Modelle auf einer Strecke bewertet haben, die mit der angegebenen Strecke des Rennens identisch oder ähnlich ist.

Wenn ein Fahrzeug drei aufeinander folgende Runden absolviert hat, kann es auf dem Leaderboard eingetragen werden. Die durchschnittliche Rundenzeit der ersten drei aufeinanderfolgenden Runden wird an das Leaderboard übermittelt.

Frameworks für maschinelles Lernen

Frameworks für maschinelles Lernen sind die Softwarebibliotheken, die zum Erstellen von Algorithmen für maschinelles Lernen verwendet werden. Zu den unterstützten Frameworks für AWS DeepRacer gehört Tensorflow.

Richtliniennetzwerk

Ein Richtliniennetzwerk ist ein neuronales Netzwerk, das trainiert wird. Das Richtliniennetzwerk nimmt Videobilder als Eingabe und prognostiziert die nächsten Aktionen für den Agenten. Je nach Algorithmus kann es auch den Wert des aktuellen Zustands des Agenten auswerten.

Optimierungsalgorithmus

Ein Optimierungsalgorithmus ist der Algorithmus, mit dem ein Modell trainiert wird. Beim überwachten Training wird der Algorithmus optimiert, indem eine Verlustfunktion mit einer bestimmten Strategie zur Aktualisierung von Gewichtungen minimiert wird. Beim bestärkenden Lernen wird der Algorithmus optimiert, indem die erwarteten zukünftigen Belohnungen mit einer bestimmten Belohnungsfunktion maximiert werden.

Neuronales Netz

Ein neuronales Netzwerk (auch bekannt als künstliches neuronales Netzwerk) ist eine Sammlung verbundener Einheiten oder Knoten, die verwendet werden, um ein auf biologischen Systemen basierendes Informationsmodell aufzubauen. Jeder Knoten wird als künstliches Neuron bezeichnet und ahmt ein biologisches Neuron nach, indem er eine Eingabe (Stimulus) empfängt, aktiviert wird, wenn das Eingangssignal stark genug ist (Aktivierung), und einen Ausgang erzeugt, der auf der Eingabe und Aktivierung basiert. Neuronale Netzwerke werden häufig beim maschinellen Lernen verwendet, da ein neuronales Netzwerk als universelle Näherung für jegliche Funktion dienen kann. Maschinen das Lernen beizubringen bedeutet, die optimale Funktionsapproximation für die gegebene Eingabe und Ausgabe zu finden. Beim tief gehenden bestärkenden Lernen stellt das neuronale Netzwerk die Strategie dar und wird oft als „Richtliniennetzwerk“ bezeichnet. Die Schulung des politischen Netzwerks läuft auf die Wiederholung von Schritten hinaus, bei denen Erfahrungen auf der Grundlage der aktuellen Politik gesammelt und anschließend das politische Netzwerk anhand der neu gewonnenen Erfahrungen optimiert werden. Der Prozess wird fortgesetzt, bis bestimmte Leistungsmetriken die geforderten Kriterien erfüllen.

Hyperparameter

Hyperparameter sind algorithmusabhängige Variablen, die die Leistung des Trainings neuronaler Netzwerke steuern. Ein Beispiel für einen Hyperparameter ist die Lernrate, die steuert, wie viele neue Erfahrungen beim Lernen in jedem Schritt berücksichtigt werden. Eine höhere Lernrate führt zu einem schnelleren Training, kann aber zu einer schlechteren Qualität des trainierten Modells führen. Hyperparameter sind empirischer Natur und erfordern eine systematische Abstimmung für jedes Training.

DeepRacerAWS-Track

Eine Strecke ist ein Pfad oder Kurs, auf dem ein DeepRacer AWS-Fahrzeug fährt. Die Strecke kann entweder in einer simulierten Umgebung oder in einer realen, physischen Umgebung existieren. Sie verwenden eine simulierte Umgebung, um ein DeepRacer AWS-Modell auf einer virtuellen Strecke zu trainieren. Die DeepRacer AWS-Konsole stellt virtuelle Tracks zur Verfügung. Sie verwenden eine reale Umgebung, um ein DeepRacer AWS-Fahrzeug auf einer physischen Strecke zu betreiben. Die AWS DeepRacer League bietet den Veranstaltungsteilnehmern physische Strecken, an denen sie teilnehmen können. Sie müssen Ihre eigene physische Strecke erstellen, wenn Sie Ihr DeepRacer AWS-Fahrzeug in einer anderen Situation einsetzen möchten. Weitere Informationen darüber, wie du deinen eigenen Track erstellst, findest du unter Build Your Physical Track.

Belohnungsfunktion

Eine Belohnungsfunktion ist ein Algorithmus innerhalb eines Lernmodells, der dem Agenten mitteilt, ob die ausgeführte Aktion zu Folgendem geführt hat:

Ein gutes Ergebnis, das verstärkt werden sollte.
Ein neutrales Ergebnis.
Ein schlechtes Ergebnis, das vermieden werden sollte.

Die Belohnung ist ein wichtiger Bestandteil des bestärkenden Lernens. Sie bestimmt das Verhalten, das der Agent erlernt, indem sie bestimmte Aktionen anderen gegenüber bevorzugt. Der Benutzer stellt die Belohnungsfunktion mit Python bereit. Diese Belohnungsfunktion wird von einem Optimierungsalgorithmus zum Training des Bestärkungslernmodells verwendet.

Erfahrungsepisode

Eine Erlebnis-Episode ist ein Zeitraum, in dem der Agent Erlebnisse als Trainingsdaten aus der Umgebung sammelt, indem er von einem bestimmten Startpunkt bis zur Fertigstellung des Tracks läuft oder von der Strecke abkommt. Episoden können unterschiedliche Längen haben. Dies wird auch als Episode oder erfahrungsgenerierende Episode bezeichnet.

Erfahrungsiteration

Bei der Erfahrungs-Iteration (auch als erfahrungsgenerierende Iteration bezeichnet) handelt es sich um eine Reihe aufeinanderfolgender Erlebnisse zwischen jeder Policy-Iteration, bei der die Gewichtungen des Richtliniennetzwerks aktualisiert werden. Am Ende jeder Erfahrungsiteration werden die erfassten Episoden einem Erfahrungs-Replay oder Puffer hinzugefügt. Die Größe kann in einem der Hyperparameter für das Training festgelegt werden. Das neuronale Netz wird anhand zufälliger Beispiele von Erfahrungen aktualisiert.

Richtlinieniteration

Bei der Richtlinieniteration (auch bekannt als Iteration zur Aktualisierung von Richtlinien) handelt es sich um eine beliebige Anzahl von Durchläufen der nach dem Zufallsprinzip ausgewählten Trainingsdaten, um die Gewichtungen des neuronalen Netzwerks der Richtlinie während des Gradientenanstiegs zu aktualisieren. Ein einziger Durchlauf der Trainingsdaten zur Aktualisierung der Gewichte wird auch als Epoche bezeichnet.

Trainingsauftrag

Ein Trainingsjob ist ein Workload, bei dem ein Reinforcement Learning-Modell trainiert und trainierte Modellartefakte erstellt werden, auf deren Grundlage Inferenzen ausgeführt werden können. Jeder Trainingsauftrag enthält zwei Unterprozesse:

Starten des Agenten zum Befolgen der aktuellen Richtlinie. Der Agent untersucht die Umgebung in einer Reihe von Episoden und erstellt Trainingsdaten. Diese Datengenerierung ist selbst ein iterativer Prozess.
Anwenden der neuen Trainingsdaten zur Berechnung neuer Richtliniengradienten. Aktualisieren der Netzwerk-Gewichtungen und Fortsetzen des Trainings. Wiederholen von Schritt 1, bis eine Stopp-Bedingung erfüllt ist.

Jeder Trainingsauftrag erstellt ein trainiertes Modell und gibt die Modellartefakte zu einem bestimmten Datenspeicher aus.

Auswertungsauftrag

Ein Evaluierungsauftrag ist ein Workload, mit dem die Leistung eines Modells getestet wird. Die Leistung wird anhand von bestimmten Metriken gemessen, nachdem der Trainingsauftrag abgeschlossen ist. Die standardmäßige DeepRacer AWS-Leistungskennzahl ist die Fahrzeit, die ein Agent benötigt, um eine Runde auf einer Strecke zu absolvieren. Eine weitere Metrik ist der Prozentsatz der abgeschlossenen Runde.

Terminologie von Rennveranstaltungen

Bei DeepRacer AWS-Rennveranstaltungen werden die folgenden Konzepte und Begriffe verwendet.

Liga/Wettbewerb: Im Zusammenhang mit Veranstaltungen der AWS DeepRacer League beziehen sich die Begriffe Liga und Wettbewerb auf die Wettbewerbsstruktur. AWSsponsert die AWS DeepRacer League, was bedeutet, dass sie uns gehört, gestaltet und betrieben wird. Ein Wettbewerb hat ein Start- und Enddatum.
Saison: Ein Wettbewerb kann sich in den folgenden Jahren wiederholen. Wir rufen die verschiedenen Saison aus (zum Beispiel die Saison 2019 oder 2020). Regeln können sich von Saison zu Saison ändern, sind aber üblicherweise innerhalb einer Saison konsistent. Die Allgemeinen Geschäftsbedingungen der AWS DeepRacer League können von Saison zu Saison variieren.
Die virtuelle Schaltung: Der Virtual Circuit bezieht sich auf die Rennen, die während der AWS DeepRacer League-Saison in der DeepRacer AWS-Konsole gesponsert werden. AWS
Veranstaltung: Gemäß den Regeln handelt es sich bei einer Veranstaltung um eine Veranstaltung der AWS DeepRacer League, an der Sie an einem Rennen teilnehmen können. Eine Veranstaltung hat ein Start- und Enddatum. Virtual Circuit-Veranstaltungen dauern in der Regel einen Monat. In einer Saison kann es viele Events geben, und einige Regeln — wie wir die Teilnehmer eines Events einstufen, wer gewinnt und was danach passiert — können sich ändern.
Renntyp: Alle Rennfahrer können an Zeitfahren (TT), Objektvermeidungsrennen (OA) oder head-to-bot (H2B) teilnehmen. Jeder Renntyp gibt die Anzahl der Runden und die Rangfolge der Rennfahrer an.
Nationale Saisontabelle: Eine nationale Saisonwertung bezieht sich auf die Bestenliste eines Rennfahrers unter anderen Rennfahrern in seinem Land. Alle Rennfahrer können in monatlichen virtuellen Rennen gegen andere Rennfahrer in ihrem Land antreten.
Regionale Saisontabelle: Eine regionale Saisonwertung bezieht sich auf die Bestenliste eines Rennfahrers unter anderen Rennfahrern in seiner Region.
Weltmeisterschaft: Die monatliche Bestenliste des Virtual Circuit der AWS DeepRacer League ist nach Ländern und Regionen unterteilt. Die besten Rennfahrer aus jeder Region haben die Möglichkeit, sich bei AWS re:Invent für die Weltmeisterschaften zu qualifizieren. Weitere Informationen finden Sie in den Allgemeinen Geschäftsbedingungen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Entdecken Sie Reinforcement Learning

Funktionsweise