Ensembles profonds - AWSConseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Ensembles profonds

L'idée fondamentale derrière l'assemblage est qu'en ayant un comité de modèles, différentes forces se compléteront mutuellement, et de nombreuses faiblesses s'annuleront mutuellement. C'est l'intuition qui sous-tend le célèbre théorème du jury du mathématicien français du XVIIIe siècle Nicolas de Condorcet (Estlund 1994) : Si chaque juré a une probabilité supérieure à 50 % d'arriver au vrai verdict, et si les jurés prennent des décisions indépendantes, la probabilité d'un verdict de groupe correct augmente à 100 % à mesure que le nombre de jurés augmente.

Passant à l'histoire récente, le processus d'assemblage des modèles ML comprend deux étapes : la formation de différents modèles et la combinaison des prédictions. Vous pouvez obtenir différents modèles en utilisant différents sous-ensembles d'entités, données de formation, régimes de formation et architectures de modèles différents. Vous pouvez combiner les prédictions en les calculant la moyenne, en formant un nouveau modèle en plus des prédictions (empilage de modèles), ou en utilisant des règles de vote personnalisées que vous pouvez adapter à un contexte spécifique (voir leétude de caspour l'un de ces exemples). Deux des premières techniques d'assemblage pour l'apprentissage automatique sont les suivantes :stimulant(Freund et Schapire 1996) etaléatoire(Breiman 2001). Il s'agit de deux approches complémentaires.

L'idée derrière la stimulation est de former séquentiellement les apprenants faibles. Chaque modèle suivant se concentre sur un sous-ensemble de données et est amplifié par les erreurs observées précédemment pendant l'entraînement. De cette façon, chaque arbre séquentiel est formé sur un nouvel ensemble d'entraînement qui n'était jamais vu auparavant. À la fin de la formation, les prévisions sont moyennes entre les apprenants faibles.

L'idée derrière les forêts aléatoires consiste à former plusieurs modèles d'arbres de décision sans taille, sur des échantillons de données amorcés et en sélectionnant des sous-ensembles d'entités aléatoires. Breiman a montré que l'erreur de généralisation a une limite supérieure qui est fonction du nombre et de la décorrélation des arbres individuels.

En Deep Learning, le décrochage est conçu comme une technique de régularisation et peut également être interprété comme un ensemble de modèles multiples (Srivastava et coll. 2014). La prise de conscience que l'abandon scolaire pourrait être utilisé pour quantifier efficacement l'incertitude (Gal et Ghahramani 2016) a motivé une exploration plus poussée des ensembles dans des modèles de Deep Learning dans le même but. Il a été démontré que les ensembles profonds surpassent le décrochage de MC dans la quantification de l'incertitude dans divers jeux de données et tâches en régression et en classification (Lakshminarayanan, Pritzel et Blundell 2017). En outre, il a été démontré que les ensembles profonds sont à la pointe de la technologie dans des environnements hors distribution (tels que les perturbations des données ou l'introduction de nouvelles classes invisibles pendant la formation). Ils surpassent le décrochage MC et d'autres méthodes (Ovadia et coll. 2019). La raison pour laquelle les ensembles profonds fonctionnent si bien dans des environnements hors distribution est que leurs valeurs de poids et leurs trajectoires de perte sont très différentes les unes des autres et, par conséquent, ils conduisent à diverses prédictions (Fort, Hu et Lakshminarayanan 2019).

Les réseaux neuronaux ont souvent des centaines de millions de paramètres de plus que les points de données d'entraînement. Cela signifie qu'ils comprennent un grand espace de fonctions possibles qui pourraient s'approcher suffisamment de la fonction de génération de données. Par conséquent, il existe de nombreuses vallées et régions à faible perte qui correspondent toutes à de bonnes fonctions, mais différentes. Vue d'un point de vue bayésien (Wilson et Izmailov 2020), ces fonctions candidates correspondent à différentes hypothèses qui identifient la véritable fonction sous-jacente. En tant que tel, plus vous regroupez de fonctions candidates, plus vous avez de chances de représenter la vérité et donc d'obtenir un modèle robuste qui montre une faible confiance lorsque vous étendez l'inférence hors distribution. Les ensembles s'installent essentiellement dans de nombreuses vallées lointaines à faible perte, donnant unedistribution de diverses fonctions(Fort, Hu et Lakshminarayanan 2019). D'autre part, des méthodes alternatives telles que le décrochage de MC et les approches bayésiennes alternatives s'affineront à une seule vallée, produisant ainsi undistribution de fonctions similaires. Par conséquent, quelques réseaux neuronaux formés indépendamment de l'ensemble— (Lakshminarayanan, Pritzel et Blundell 2017) et (Ovadia et coll. 2019) suggèrent que cinq modèles sont suffisants, ce qui permettra de récupérer plus précisément la vraie probabilité marginale (distribution prédictive), comparé à un échantillonnage autour d'une seule région à faible perte, qui accueillera beaucoup de redondance (car les fonctions seront toutes similaires).

En résumé, pour améliorer votre précision et optimiser la fiabilité de vos incertitudes, regroupez vos modèles.