Verwenden von Reinforcement Learning mit Amazon SageMaker - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Reinforcement Learning mit Amazon SageMaker

Reinforcement Learning (RL) kombiniert Bereiche wie Informatik, Neurowissenschaften und Psychologie, um zu bestimmen, wie Situationen Aktionen zugeordnet werden, um ein numerisches Belohnungssignal zu maximieren. Dieser Begriff eines Belohnungssignals in RL beruht auf der Forschung der Neurowissenschaften, wie das menschliche Gehirn Entscheidungen darüber trifft, welche Aktionen die Belohnung maximieren und die Bestrafung minimieren. In den meisten Situationen erhalten Menschen keine expliziten Anweisungen, welche Maßnahmen ergriffen werden sollen, sondern müssen sowohl lernen, welche Maßnahmen die unmittelbarsten Belohnungen bringen als auch wie diese Aktionen zukünftige Situationen und Konsequenzen beeinflussen.

Das Problem der RL wird mithilfe von Markov-Entscheidungsprozessen (MDPs) formalisiert, die aus der dynamischen Systemtheorie stammen. MDPs zielen darauf ab, hochrangige Details eines echten Problems zu erfassen, auf das ein Lernagent während eines bestimmten Zeitraums stößt, wenn er versucht, ein endgültiges Ziel zu erreichen. Der Lernagent sollte in der Lage sein, den aktuellen Zustand seiner Umgebung zu bestimmen und mögliche Aktionen zu identifizieren, die sich auf den aktuellen Status des Lernagenten auswirken. Darüber hinaus sollten die Ziele des Lernagenten stark mit dem Zustand der Umwelt korrelieren. Eine Lösung für ein so formuliertes Problem wird als Verstärkungslernmethode bezeichnet.

Was sind die Unterschiede zwischen Verstärkung, überwachten und unbeaufsichtigten Lernparadigmen?

Machine Learning kann in drei verschiedene Lernparadigmen unterteilt werden: überwacht, unbeaufsichtigt und verstärkt.

Im überwachten Lernen bietet ein externer Betreuer eine Reihe von markierten Beispielen an. Jedes Beispiel enthält Informationen über eine Situation, gehört zu einer Kategorie und hat eine Beschriftung, die die Kategorie identifiziert, zu der es gehört. Ziel des überwachten Lernens ist es, zu verallgemeinern, um in Situationen, die nicht in den Trainingsdaten vorhanden sind, richtig vorherzusagen.

Im Gegensatz dazu befasst sich RL mit interaktiven Problemen, wodurch es unmöglich ist, alle möglichen Beispiele für Situationen mit korrekten Labels zu sammeln, auf die ein Agent stoßen könnte. Diese Art des Lernens ist am vielversprechendsten, wenn ein Agent aus eigener Erfahrung genau lernen und sich entsprechend anpassen kann.

Beim unbeaufsichtigten Lernen lernt ein Agent, indem er die Struktur innerhalb unbeschrifteter Daten aufdeckt. Während ein RL-Agent von der Aufdeckung einer Struktur aufgrund seiner Erfahrungen profitieren könnte, besteht der einzige Zweck von RL darin, ein Belohnungssignal zu maximieren.

Warum ist RL wichtig?

RL eignet sich hervorragend zur Lösung großer, komplexer Probleme wie Supply Chain Management, HLK-Systeme, industrielle Robotik, künstliche Intelligenz in Spielen, Dialogsysteme und autonome Fahrzeuge. Da RL-Modelle auf Basis eines kontinuierlichen Prozesses lernen, im Rahmen dessen Belohnungen oder Strafen für jede Aktion des Agenten erhalten werden, können Systeme so trainiert werden, dass sie auch bei Unsicherheiten und in dynamischen Umgebungen Entscheidungen treffen.

Markow-Entscheidungsprozess (MEP)

RL basiert auf Modellen, die Markow-Entscheidungsprozesse (MEPs) genannt werden. Ein MEP besteht aus einer Reihe von Zeitschritten. Jeder Zeitschritt besteht aus Folgendem:

Umgebung

Definiert den Raum, in dem das RL-Modell agiert. Dies kann entweder eine reale Umgebung oder einen Simulator sein. Wenn Sie zum Beispiel eine physisches autonomes Fahrzeug auf einer physischen Straße trainieren, wäre das eine reale Umgebung. Wenn Sie ein Computerprogramm trainieren, dass ein auf einer Straße fahrendes autonomes Fahrzeug modelliert, wäre das ein Simulator.

Status

Gibt alle Informationen über die Umgebung und vergangene Schritte an, die für die Zukunft relevant sind. Beispiel: In einem RL-Modell, in dem ein Roboter sich in jedem Zeitschritt in jede beliebige Richtung bewegen kann, ist die Position des Roboters im aktuellen Zeitschritt der Zustand; denn wenn wir wissen, wo sich der Roboter befindet, dann ist es nicht erforderlich, die Schritte zu kennen, durch die er an diesen Ort gelangt ist.

Action

Was der Agent tut. Beispiel: Der Roboter geht einen Schritt nach vorne.

Belohnung

Eine Zahl, die den Wert des Zustands angibt, der aus der letzten Aktion des Agenten resultierte. Beispiel: Wenn das Ziel für einen Roboter darin besteht, einen Schatz zu finden, dann könnte die Belohnung für das Finden des Schatzes 5 und bei Nichtfinden des Schatzes 0 sein. Das RL-Modell versucht, eine Strategie zu finden, die die kumulative Belohnung langfristig optimiert. Diese Strategie wird als Richtlinie bezeichnet.

Beobachtung

Informationen über den Zustand der Umgebung, die dem Agenten in jedem Schritt zur Verfügung stehen. Dies kann der gesamte Zustand oder nur ein Teil des Zustands sein. Beispiel: Der Agent in einem Schachspielmodell kann des gesamten Zustand des Schachbrettes in jedem Schritt beobachten. Ein Roboter in einem Labyrinth hingegen kann nur einen kleinen Teil des Labyrinths beobachten – den Bereich, in dem er sich aktuell befindet.

Das Training besteht im RL in der Regel aus vielen Episoden. Eine Episode umfasst alle Zeitschritte eines MEP, vom ersten Zustand bis die Umgebung den abschließenden Zustand erreicht.

Wichtige Funktionen von Amazon SageMaker RL

Zum Trainieren von RL-Modellen in SageMaker RL verwenden Sie die folgenden Komponenten:

  • Ein Deep Learning-Framework: Derzeit unterstützt SageMaker RL in TensorFlow und Apache MXNet.

  • Ein RL-Toolkit: Ein RL-Toolkit verwaltet die Interaktion zwischen dem Agenten und der Umgebung und bietet eine große Auswahl an hochmodernen RL-Algorithmen. SageMaker unterstützt die Toolkits Intel Coach und Ray RlLib. Informationen zu Intel Coach finden Sie unter https://nervanasystems.github.io/coach/. Informationen zu Ray RLlib finden Sie unter https://ray.readthedocs.io/en/latest/rllib.html.

  • Eine RL-Umgebung: Sie können benutzerdefinierte Umgebungen, Open-Source-Umgebungen oder kommerzielle Umgebungen verwenden. Weitere Informationen finden Sie unter RL-Umgebungen in Amazon SageMaker.

Das folgende Diagramm zeigt die RL-Komponenten, die in SageMaker RL unterstützt werden.

Beispielnotebooks zum Reinforcement Learning

In der folgenden Tabelle werden eine Vielzahl von Beispielnotizbüchern beschrieben, die verschiedene Anwendungsfälle von Amazon SageMaker Reinforcement Learning behandeln.

Notizbuch Titel Beschreibung

Wie trainiere ich Batch RL-Richtlinien?

Dieses Notizbuch zeigt, wie Batch RL verwendet wird, um eine neue Richtlinie aus einem Offline-Dataset zu trainieren.

Wie löst man das Problem beim Wagenpolausgleich?

Dieses Notebook zeigt, wie das Problem beim Auswuchten von Wagenpolen mit RL gelöst werden kann.

Wie löst man das Knapsack-Problem?

Dieses Notizbuch zeigt, wie man RL benutzt, um das Rucksackproblem zu lösen und wieSageMaker Managed Spot Trainingkann verwendet werden, um Schulungen zu geringeren Kosten durchzuführen.

Wie löst man das Mountain Car Problem?

Dieses Notizbuch zeigt, wie das Problem der Mountain Car Control mit RL gelöst werden kann.