Tiefe Ensembles - AWSPräskriptive Anleitung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tiefe Ensembles

Die Kernidee hinter Ensembling ist, dass sich durch ein Komitee von Modellen unterschiedliche Stärken ergänzen und sich viele Schwächen gegenseitig aufheben werden. Dies ist die leitende Intuition hinter dem berühmten Jurytheorem des französischen Mathematikers Nicolas de Condorcet aus dem 18. Jahrhundert (Estlund 1994): Wenn jeder Geschworene eine Wahrscheinlichkeit hat, die größer als 50% ist, zu dem wahren Urteil zu gelangen, und wenn die Geschworenen unabhängige Entscheidungen treffen, steigt die Wahrscheinlichkeit eines korrekten Gruppenurteils auf 100%, wenn die Zahl der Geschworenen steigt.

Der Prozess des Ensemblings von ML-Modellen umfasst zwei Schritte: das Training verschiedener Modelle und die Kombination der Vorhersagen. Sie können verschiedene Modelle erhalten, indem Sie verschiedene Feature-Teilmengen, Trainingsdaten, Trainingsprogramme und Modellarchitekturen verwenden. Sie können Vorhersagen kombinieren, indem Sie sie gemittelt und ein neues Modell zusätzlich zu den Vorhersagen trainieren (Modell-Stacking) oder mit benutzerdefinierten Abstimmungsregeln, die Sie auf einen bestimmten Kontext einstellen können (sieheFallstudiefür ein solches Beispiel). Zwei der ersten Ensembling-Techniken für maschinelles Lernen sindverstärkend(Freund und Schapire 1996) undRandom(Breiman 2001) enthalten. Dies sind zwei sich ergänzende Ansätze.

Die Idee hinter dem Boosting besteht darin, schwache Lernende nacheinander auszubilden. Jedes nachfolgende Modell konzentriert sich auf eine Teilmenge der Daten und wird durch die zuvor während des Trainings beobachteten Fehler verstärkt. Auf diese Weise wird jeder sequentielle Baum auf einem neuen Trainingsset trainiert, das zuvor unsichtbar war. Am Ende des Trainings werden Vorhersagen für die schwachen Lernenden gemittelt.

Die Idee hinter Zufallsstrukturen besteht darin, mehrere Entscheidungsbaummodelle zu trainieren, ohne zu beschneiden, bei Bootstrapping-Proben der Daten und die Auswahl zufälliger Feature-Teilmengen. Breiman zeigte, dass der Verallgemeinerungsfehler eine Obergrenze aufweist, die von der Anzahl und der Dekorrelation der einzelnen Bäume abhängt.

Im Deep Learning ist Dropout als Regularisierungstechnik konzipiert und kann auch als Ensemble mehrerer Modelle (Srivastava et al. 2014) enthalten. Die Erkenntnis, dass Abbrecher genutzt werden könnte, um die Unsicherheit effektiv zu quantifizieren (Gal und Ghahramani 2016) motivierte eine weitere Erforschung von Ensembles in Deep-Learning-Modellen für den gleichen Zweck. Es wurde gezeigt, dass tiefe Ensembles den MC-Ausfall bei der Quantifizierung der Unsicherheit in einer Vielzahl von Datensätzen und Aufgaben in der Regression und Klassifizierung übertreffen (Lakshminarayanan, Pritzel und Blundell 2017) enthalten. Darüber hinaus hat sich gezeigt, dass tiefe Ensembles in Umgebungen außerhalb der Verteilung auf dem neuesten Stand der Technik sind (z. B. Störungen der Daten oder die Einführung neuer Klassen, die während des Trainings nicht gesehen wurden). Sie übertreffen MC-Abbrecher und andere Methoden (Ovadia et al. 2019) enthalten. Der Grund, warum tiefe Ensembles in Einstellungen außerhalb der Verteilung so gut funktionieren, ist, dass sich ihre Gewichtswerte und Verlustbahnen stark voneinander unterscheiden und dadurch zu unterschiedlichen Vorhersagen führen (Fort, Hu und Lakshminarayanan 2019) enthalten.

Neuronale Netze haben oft Hunderte Millionen mehr Parameter als Trainingsdatenpunkte. Dies bedeutet, dass sie einen großen Raum möglicher Funktionen enthalten, die sich der Datenerzeugungsfunktion ausreichend nähern können. Folglich gibt es viele verlustarme Täler und Regionen, die alle guten, aber unterschiedlichen Funktionen entsprechen. Aus bayesischer Perspektive betrachtet (Wilson und Izmailov 2020) entsprechen diese Kandidatenfunktionen verschiedenen Hypothesen, die die wahre zugrunde liegende Funktion identifizieren. Je mehr Kandidatenfunktionen Sie einsetzen, desto wahrscheinlicher ist es, dass Sie die Wahrheit repräsentieren und daher ein robustes Modell erzielen, das ein geringes Vertrauen zeigt, wenn Sie die Schlussfolgerungen aus der Verteilung ausweiten. Ensembles siedeln sich im Wesentlichen in vielen entfernten verlustarmen Tälern nieder und ergeben eineVerteilung verschiedener Funktionen(Fort, Hu und Lakshminarayanan 2019) enthalten. Auf der anderen Seite werden alternative Methoden wie MC-Abbrecher und alternative bayessche Ansätze auf nur ein Tal hineingehen und einVerteilung ähnlicher Funktionenaus. Deshalb sind nur ein paar unabhängig ausgebildete neuronale Netze aus dem Ensemble— (Lakshminarayanan, Pritzel und Blundell 2017) und (Ovadia et al. 2019) deuten darauf hin, dass fünf Modelle ausreichend sind - werden die wahre marginale Wahrscheinlichkeit (vorausschauende Verteilung) im Vergleich zur Probenahme in einer einzigen verlustarmen Region genauer wiederherstellen, die eine große Redundanz aufweist (weil Funktionen alle ähnlich sein werden).

Zusammenfassend lässt sich Ihre Modelle zusammenfassen, um Ihre Genauigkeit zu verbessern und die Zuverlässigkeit Ihrer Unsicherheiten zu maximieren.