Deep-Ensembles - AWSPräskriptive Anleitung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Deep-Ensembles

Die Grundidee hinter dem Ensembling ist, dass sich durch ein Komitee von Modellen verschiedene Stärken gegenseitig ergänzen und viele Schwächen sich gegenseitig aufheben werden. Dies ist die leitende Intuition hinter dem berühmten Satz der Jury des französischen Mathematikers Nicolas de Condorcet aus dem 18. Jahrhundert (Estlund 1994): Wenn jeder Geschworene eine Wahrscheinlichkeit hat, die größer als 50% ist, um das wahre Urteil zu erreichen, und wenn die Juroren unabhängige Entscheidungen treffen, erhöht sich die Wahrscheinlichkeit eines korrekten Gruppenurteils auf 100%, wenn die Anzahl der Juroren zunimmt.

Der Prozess der Zusammenstellung von ML-Modellen umfasst zwei Schritte: das Training verschiedener Modelle und das Kombinieren der Vorhersagen. Sie können verschiedene Modelle abrufen, indem Sie verschiedene Feature-Teilmengen, Trainingsdaten, Trainingsregime und Modellarchitekturen verwenden. Sie können Vorhersagen kombinieren, indem Sie sie gemittelt und ein neues Modell zusätzlich zu den Vorhersagen trainieren (Stapelprognose) oder mit benutzerdefinierten Abstimmungsregeln, die Sie auf einen bestimmten Kontext einstellen können (sieheFallstudiefür ein solches Beispiel). Zwei der anfänglichen Ensembling-Techniken für maschinelles Lernen sindBoosting(Freund und Schapire 1996) undRandom Forest(Breiman 2001) enthalten. Dies sind zwei sich ergänzende Ansätze.

Die Idee hinter der Förderung besteht darin, schwache Lernende nacheinander zu schulen. Jedes nachfolgende Modell konzentriert sich auf eine Teilmenge der Daten und wird durch die Fehler, die zuvor während des Trainings beobachtet wurden, verstärkt. Auf diese Weise wird jeder sequentielle Baum auf einem neuen Trainingsset trainiert, das bisher unsichtbar war. Am Ende des Trainings werden Vorhersagen über die schwachen Lernenden gemittelt.

Die Idee hinter zufälligen Gesamtstrukturen besteht darin, mehrere Entscheidungsbaum-Modelle ohne Beschneiden zu trainieren, auf Bootstrap-Proben der Daten und durch Auswahl zufälliger Feature-Teilmengen. Breiman zeigte, dass der Verallgemeinerungsfehler eine Obergrenze hat, die eine Funktion der Anzahl und Dekorrelation der einzelnen Bäume ist.

Im Deep Learning ist Dropout als Regularisierungstechnik konzipiert und kann auch als Ensemble mehrerer Modelle interpretiert werden (Srivastava et al. 2014) enthalten. Die Erkenntnis, dass Dropout genutzt werden könnte, um Unsicherheit effektiv zu quantifizieren (Gal und Ghahramani 2016) motivierte eine weitere Erkundung von Ensembles in Deep Learning Modellen für denselben Zweck. Deep Ensembles haben gezeigt, dass sie MC-Dropout bei der Quantifizierung von Unsicherheit in einer Vielzahl von Datensätzen und Aufgaben in Regression und Klassifizierung übertreffen (Lakshminarayanan, Pritzel und Blundell 2017) enthalten. Darüber hinaus hat sich gezeigt, dass tiefe Ensembles in Out-of-Distribution-Einstellungen auf dem neuesten Stand der Technik sind (wie Störungen der Daten oder die Einführung neuer Klassen, die während des Trainings nicht gesehen wurden). Sie übertreffen MC-Dropout und andere Methoden (Ovadia et al. 2019) enthalten. Der Grund, warum tiefe Ensembles in Out-of-Distribution-Einstellungen so gut funktionieren, ist, dass ihre Gewichtswerte und Verlust-Trajektorien sehr unterschiedlich voneinander sind und dadurch zu unterschiedlichen Vorhersagen führen (Fort, Hu und Lakshminarayanan 2019) enthalten.

Neuronale Netzwerke haben oft Hunderte von Millionen mehr Parameter als Trainingsdatenpunkte. Dies bedeutet, dass sie einen großen Raum an möglichen Funktionen enthalten, die die Datenerzeugungsfunktion ausreichend annähern könnten. Folglich gibt es viele verlustarme Täler und Regionen, die alle guten, aber unterschiedlichen Funktionen entsprechen. Aus bayesischer Sicht betrachtet (Wilson und Izmailov 2020) entsprechen diese Kandidatenfunktionen verschiedenen Hypothesen, die die wahre zugrunde liegende Funktion identifizieren. Je mehr Kandidatenfunktionen Sie zusammensetzen, desto wahrscheinlicher ist es, dass Sie die Wahrheit darstellen und daher ein robustes Modell erzielen, das geringe Vertrauen zeigt, wenn Sie die Inferenz außerhalb der Verteilung erweitern. Ensembles siedeln sich im Wesentlichen in vielen fernen verlustarmen Tälern nieder und ergeben eineVerteilung diverser Funktionen(Fort, Hu und Lakshminarayanan 2019) enthalten. Auf der anderen Seite werden alternative Methoden wie MC-Dropout und alternative bayesische Ansätze zu nur einem Tal verfeinern, was zu einemVerteilung ähnlicher Funktionenaus. Daher sind nur wenige unabhängig trainierte neuronale Netze aus dem Ensemble— (Lakshminarayanan, Pritzel und Blundell 2017) und (Ovadia et al. 2019) deuten darauf hin, dass fünf Modelle ausreichend sind — werden die wahre Grenzwahrscheinlichkeit (vorausschauende Verteilung) genauer wiederherstellen, wenn sie mit Sampling um eine einzelne verlustarme Region verglichen werden, die eine Menge Redundanz hosten wird (da Funktionen alle ähnlich sind).

Zusammenfassend können Sie Ihre Modelle zusammenfassen, um Ihre Genauigkeit zu verbessern und die Zuverlässigkeit Ihrer Unsicherheiten zu maximieren.