Trainieren Sie ein Reinforcement Learning-Modell mithilfe der DeepRacer AWS-Konsole Geben Sie den Modellnamen und die Umgebung an Wähle einen Renntyp und einen Trainingsalgorithmus Definieren Sie den Aktionsraum Wähle ein virtuelles Auto Passen Sie Ihre Belohnungsfunktion an

Trainiere dein erstes DeepRacer AWS-Modell

In dieser Anleitung wird gezeigt, wie Sie Ihr erstes Modell mit der DeepRacer AWS-Konsole trainieren.

Trainieren Sie ein Reinforcement Learning-Modell mithilfe der DeepRacer AWS-Konsole

Erfahren Sie, wo Sie in der DeepRacer AWS-Konsole die Schaltfläche Modell erstellen finden, um Ihre Modellschulung zu beginnen.

Um ein Reinforcement Learning-Modell zu trainieren

Wenn Sie AWS zum ersten Mal verwenden DeepRacer, wählen Sie auf der Service-Landingpage die Option Modell erstellen aus oder wählen Sie im Hauptnavigationsbereich unter der Überschrift Reinforcement Learning die Option Get started aus.
Wählen Sie auf der Seite Erste Schritte mit Reinforcement Learning unter Schritt 2: Erstellen eines Modells die Option Modell erstellen aus.

Sie können auch Ihre Modelle unter der Überschrift Reinforcement -Lernen aus dem Hauptnavigationsbereich auswählen. Wählen Sie auf der Seite Your Models (Ihre Modelle) die Option Create model (Modell erstellen) aus.

Geben Sie den Modellnamen und die Umgebung an

Benennen Sie Ihr Modell und erfahren Sie, wie Sie die für Sie passende Simulationsstrecke auswählen.

Um den Modellnamen und die Umgebung anzugeben

Geben Sie auf der Seite Modell erstellen unter Trainingsdetails einen Namen für Ihr Modell ein.
Sie können optional auch eine Beschreibung des Ausbildungsberufs hinzufügen.
Weitere Informationen zum Hinzufügen optionaler Tags finden Sie unterMarkierung.
Wählen Sie unter Umgebungssimulation eine Strecke aus, die als Trainingsumgebung für Ihren DeepRacer AWS-Agenten dienen soll. Wählen Sie unter Spurrichtung die Option Im Uhrzeigersinn oder Gegen den Uhrzeigersinn aus. Wählen Sie anschließend Next (Weiter) aus.

Wählen Sie für die erste Ausführung eine Strecke mit einer einfachen Form und sanften Kurven aus. In späteren Iterationen können Sie komplexere Strecken auswählen, um die Modelle schrittweise zu verbessern. Um ein Modell für eine bestimmte Rennveranstaltung zu trainieren, wählen Sie die Strecke aus, die der Strecke der Veranstaltung am ähnlichsten ist.
Wählen Sie unten auf der Seite Next (Weiter).

Wähle einen Renntyp und einen Trainingsalgorithmus

In der DeepRacer AWS-Konsole stehen drei Renntypen und zwei Trainingsalgorithmen zur Auswahl. Erfahren Sie, welche für Ihr Qualifikationsniveau und Ihre Trainingsziele geeignet sind.

Um einen Renntyp und einen Trainingsalgorithmus auszuwählen

Wählen Sie auf der Seite Modell erstellen unter Renntyp die Option Zeitfahren, Objektvermeidung oder H ausead-to-bot.

Für deinen ersten Lauf empfehlen wir, Zeitfahren zu wählen. Hinweise zur Optimierung der Sensorkonfiguration Ihres Agenten für diesen Renntyp finden Sie unterMaßgeschneidertes DeepRacer AWS-Training für Zeitfahren.
Wählen Sie bei späteren Läufen optional Objektvermeidung, um stationäre Hindernisse zu umgehen, die an festen oder zufälligen Stellen entlang der ausgewählten Strecke platziert sind. Weitere Informationen finden Sie unter Maßgeschneidertes DeepRacer AWS-Training für Rennen zur Objektvermeidung.
1. Wählen Sie Fester Standort, um Boxen an festen, benutzerdefinierten Positionen auf den beiden Fahrspuren der Strecke zu erzeugen, oder wählen Sie Zufällige Position, um Objekte zu erzeugen, die zu Beginn jeder Episode Ihrer Trainingssimulation zufällig auf den beiden Fahrspuren verteilt werden.
2. Wählen Sie als Nächstes einen Wert für die Anzahl der Objekte auf einer Spur.
3. Wenn Sie „Feste Position“ ausgewählt haben, können Sie die Platzierung der einzelnen Objekte auf der Spur anpassen. Wählen Sie für die Platzierung der Fahrspur zwischen der inneren Spur und der äußeren Fahrbahn. Standardmäßig werden Objekte gleichmäßig über die Spur verteilt. Um zu ändern, wie weit ein Objekt zwischen der Start- und Ziellinie ist, geben Sie in das Feld Position (%) zwischen Start und Ziel einen Prozentsatz dieser Entfernung zwischen sieben und 90 ein.
Für anspruchsvollere Läufe kannst du optional ead-to-bot H-Rennen wählen, um gegen bis zu vier Bot-Fahrzeuge anzutreten, die sich mit konstanter Geschwindigkeit bewegen. Weitere Informationen hierzu finden Sie unter Maßgeschneidertes DeepRacer AWS-Training für head-to-bot Rennen.
1. Wählen Sie unter Wählen Sie die Anzahl der Bot-Fahrzeuge aus, mit wie vielen Bot-Fahrzeugen Ihr Agent trainieren soll.
2. Wählen Sie als Nächstes die Geschwindigkeit in Millimetern pro Sekunde, mit der die Bot-Fahrzeuge auf der Strecke fahren sollen.
3. Markieren Sie optional das Feld Spurwechsel aktivieren, um den Bot-Fahrzeugen die Möglichkeit zu geben, alle 1-5 Sekunden nach dem Zufallsprinzip die Spur zu wechseln.
Wählen Sie unter Trainingsalgorithmus und Hyperparameter den Algorithmus Soft Actor Critic (SAC) oder Proximal Policy Optimization (PPO) aus. In der DeepRacer AWS-Konsole müssen SAC-Modelle in Räumen mit kontinuierlicher Aktion trainiert werden. PPO-Modelle können entweder in kontinuierlichen oder diskreten Aktionsräumen trainiert werden.
Verwenden Sie unter Trainingsalgorithmus und Hyperparameter die Hyperparameter-Standardwerte unverändert.

Um die Schulungsleistung zu verbessern, erweitern Sie später Hyperparameters (Hyperparameter) und ändern Sie die Standardwerte für Hyperparameter wie folgt:
1. Wählen Sie für Gradient Descent Batch Size (Gradientenabstieg-Batchgröße) die Option Available options (Verfügbare Optionen) aus.
2. Legen Sie für Number of epochs (Anzahl der Epochen) einen gültigen Wert fest.
3. Legen Sie für Learning rate (Lernrate) einen gültigen Wert fest.
4. Geben Sie für den SAC-Alphawert (nur SAC-Algorithmus) einen gültigen Wert ein.
5. Legen Sie für Entropy (Entropie) einen gültigen Wert fest.
6. Legen Sie für Discount factor (Abschlagfaktor) einen gültigen Wert fest.
7. Wählen Sie für Loss type (Loss-Typ) verfügbare Optionen aus.
8. Legen Sie für Number of experience episodes between each policy-updating iteration (Anzahl der Erfahrungsepisoden zwischen den einzelnen Strategieaktualisierungs-Iterationen) einen gültigen Wert fest.
Weitere Informationen zu Hyperparametern finden Sie unter Systematische Abstimmung von Hyperparametern.
Wählen Sie Next (Weiter).

Definieren Sie den Aktionsraum

Wenn Sie sich auf der Seite Aktionsraum definieren dafür entschieden haben, mit dem Soft Actor Critic (SAC) -Algorithmus zu trainieren, ist Ihr Standard-Aktionsraum der kontinuierliche Aktionsraum. Wenn Sie sich für das Training mit dem PPO-Algorithmus (Proximal Policy Optimization) entschieden haben, wählen Sie zwischen Kontinuierlicher Aktionsraum und Diskreter Aktionsraum. Weitere Informationen darüber, wie die einzelnen Aktionsbereiche und Algorithmen das Trainingserlebnis des Agenten beeinflussen, finden Sie unter DeepRacer AWS-Aktionsraum und Belohnungsfunktion.

Wählen Sie unter Kontinuierlichen Aktionsraum definieren die Grade Ihres linken Lenkwinkelbereichs und des rechten Lenkwinkelbereichs aus.

Versuchen Sie, für jeden Lenkwinkelbereich unterschiedliche Grade einzugeben, und beobachten Sie, wie sich Ihre Reichweite visuell ändert, um Ihre Auswahl im dynamischen Sektordiagramm darzustellen.
Geben Sie unter Geschwindigkeit eine Mindest- und Höchstgeschwindigkeit für Ihren Agenten in Millimetern pro Sekunde ein.

Beachten Sie, wie sich Ihre Änderungen im dynamischen Sektordiagramm widerspiegeln.
Wählen Sie optional Auf Standardwerte zurücksetzen, um unerwünschte Werte zu löschen. Wir empfehlen, verschiedene Werte in der Grafik auszuprobieren, um zu experimentieren und zu lernen.
Wählen Sie Next (Weiter).

Wählen Sie einen Wert für die Granularität des Lenkwinkels aus der Dropdown-Liste aus.
Wählen Sie einen Wert in Grad zwischen 1 und 30 für den maximalen Lenkwinkel Ihres Agenten.
Wählen Sie einen Wert für die Geschwindigkeitsgranularität aus der Dropdown-Liste.
Wählen Sie einen Wert in Millimetern pro Sekunde zwischen 0,1—4 für die Höchstgeschwindigkeit Ihres Agenten.
Verwenden Sie die standardmäßigen Aktionseinstellungen in der Aktionsliste oder schalten Sie optional auf Erweiterte Konfiguration um, um Ihre Einstellungen zu optimieren. Wenn Sie nach der Anpassung der Werte die Option Zurück wählen oder die Option Erweiterte Konfiguration deaktivieren, gehen Ihre Änderungen verloren.
1. Geben Sie in der Spalte Lenkwinkel einen Wert in Grad zwischen -30 und 30 ein.
2. Geben Sie in der Spalte Geschwindigkeit einen Wert zwischen 0,1 und 4 in Millimetern pro Sekunde für bis zu neun Aktionen ein.
3. Wählen Sie optional Aktion hinzufügen aus, um die Anzahl der Zeilen in der Aktionsliste zu erhöhen.
4. Wählen Sie optional X in einer Zeile aus, um sie zu entfernen.
Wählen Sie Next (Weiter).

Wähle ein virtuelles Auto

Informationen zu den ersten Schritten mit virtuellen Autos. Verdiene dir neue maßgeschneiderte Autos, Lackierungen und Modifikationen, indem du jeden Monat an der Open Division teilnimmst.

Um ein virtuelles Auto zu wählen

Wähle auf der Seite „Fahrzeugschale und Sensorkonfiguration auswählen“ eine Schale aus, die zu deinem Renntyp und deinem Aktionsraum kompatibel ist. Wenn du kein passendes Auto in deiner Garage hast, gehe im Hauptnavigationsbereich unter der Überschrift Reinforcement Learning zu Deine Garage, um eines zu erstellen.

Für das Zeitfahrtraining benötigen Sie lediglich die Standardsensorkonfiguration und die Kamera mit einem Objektiv von The Original DeepRacer, aber alle anderen Granaten und Sensorkonfigurationen funktionieren, solange der Aktionsraum passt. Weitere Informationen finden Sie unter Maßgeschneidertes DeepRacer AWS-Training für Zeitfahren.

Für das Training zur Objektvermeidung sind Stereokameras hilfreich, aber eine einzelne Kamera kann auch verwendet werden, um stationären Hindernissen an festen Orten auszuweichen. Ein LiDAR-Sensor ist optional. Siehe DeepRacer AWS-Aktionsraum und Belohnungsfunktion.

Für das ead-to-botH-Training eignet sich zusätzlich zu einer Einzelkamera oder einer Stereokamera eine LiDAR-Einheit optimal, um tote Winkel zu erkennen und zu vermeiden, wenn Sie an anderen fahrenden Fahrzeugen vorbeifahren. Weitere Informationen hierzu finden Sie unter Maßgeschneidertes DeepRacer AWS-Training für head-to-bot Rennen.
Wählen Sie Next (Weiter).

Passen Sie Ihre Belohnungsfunktion an

Die Belohnungsfunktion steht im Mittelpunkt des Reinforcement Learning. Lernen Sie, damit Ihr Auto (Agent) zu bestimmten Aktionen anzuregen, während es die Strecke (Umgebung) erkundet. Sie können dieses Tool verwenden, um Ihr Auto zu ermutigen, eine Runde so schnell wie möglich zu beenden, und es davon abzuhalten, von der Strecke abzukommen oder mit Objekten zu kollidieren, wie Sie es ermutigen, bestimmte Verhaltensweisen bei einem Haustier zu fördern oder zu verhindern.

Um deine Belohnungsfunktion anzupassen

Verwenden Sie auf der Seite Create model (Modell erstellen) unter Reward function (Belohnungsfunktion) das Standard-Belohnungsfunktionsbeispiel für Ihr erstes Modell unverändert.

Später können Sie Reward function examples (Belohnungsfunktionsbeispiele) wählen, um eine andere Beispielfunktion auszuwählen und dann Use code (Code verwenden), um die ausgewählte Belohnungsfunktion zu akzeptieren.

Es gibt vier Beispielfunktionen, mit denen Sie beginnen können. Sie veranschaulichen, wie Sie der Gleismitte folgen (Standard), wie Sie den Agenten innerhalb der Gleisgrenzen halten, wie Sie Zickzackfahren verhindern und wie Sie vermeiden, gegen stehende Hindernisse oder andere sich bewegende Fahrzeuge zu stoßen.

Weitere Informationen zur Belohnungsfunktion finden Sie unter Referenz zur DeepRacer AWS-Prämienfunktion.
Lassen Sie unter Stoppbedingungen den Standardwert für die maximale Zeit unverändert, oder legen Sie einen neuen Wert fest, um den Trainingsjob zu beenden, um lang andauernde (und möglicherweise außer Kontrolle geratene) Trainingsjobs zu vermeiden.

Beim Experimentieren in der frühen Phase des Trainings sollten Sie mit einem kleinen Wert für diesen Parameter beginnen und dann das Training schrittweise verlängern.
Unter Automatisch an die AWS DeepRacer senden ist standardmäßig die Option Dieses Modell nach Abschluss der Schulung DeepRacer automatisch an die AWS senden und die Chance, Preise zu gewinnen, aktiviert. Optional können Sie die Eingabe Ihres Modells abbestellen, indem Sie das Häkchen anklicken.
Wähle unter Liga-Anforderungen dein Wohnsitzland aus und akzeptiere die Allgemeinen Geschäftsbedingungen, indem du das Kästchen anklickst.
Wählen Sie Modell erstellen, um mit der Erstellung des Modells und der Bereitstellung der Trainingsjob-Instanz zu beginnen.
Achten Sie nach der Übermittlung darauf, dass der Schulungsauftrag initialisiert und anschließend ausgeführt wird.

Es dauert einige Minuten, bis der Initialisierungsprozess von Initialisierung zu Wird ausgeführt wechselt.
In Reward graph (Belohnungsdiagramm) und Simulation video stream (Simulationsvideo-Stream) können Sie den Fortschritt der Trainingsaufgabe beobachten. Sie können regelmäßig die Aktualisierungsschaltfläche neben Reward graph (Belohnungsdiagramm) auswählen, um Reward graph (Belohnungsdiagramm) zu aktualisieren, bis die Trainingsaufgabe beendet ist.

Der Trainingsjob wird in derAWS Cloud ausgeführt, sodass Sie die DeepRacer AWS-Konsole nicht geöffnet lassen müssen. Während der Arbeit können Sie jederzeit zur Konsole zurückkehren, um Ihr Modell zu überprüfen.

Wenn das Simulationsvideostream-Fenster oder die Anzeige des Belohnungsdiagramms nicht mehr reagieren, aktualisieren Sie die Browserseite, um den Trainingsfortschritt zu aktualisieren.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte

Evaluieren Sie Modelle in der Simulation