Conclusion - AWSConseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Conclusion

Ce guide fournit une vue d'ensemble conceptuelle de l'incertitude dans les systèmes de Deep Learning. Il décrit des expériences qui étendent la littérature existante pour couvrir le scénario d'apprentissage par transfert pour le traitement du langage naturel (PNL) dans les contextes de distribution et hors distribution. Enfin, il a fourni une étude de cas qui sert de feuille de route sur la façon dont les scientifiques des données peuvent appliquer ces concepts dans leur travail dans un secteur hautement réglementé.

Lors de la quantification de l'incertitude dans les réseaux de Deep Learning, notre recommandation générale est d'utiliser l'échelle de température avec des ensembles profonds. La mise à l'échelle de la température fournit des estimations d'incertitude interprétables lorsque les données entrantes sont en distribution. Par conséquent, la mise à l'échelle de la température corrige l'incertitude totale en ajustant les incertitudes softmax afin qu'elles ne soient pas trop confiantes. La mise à l'échelle de la température doit être effectuée sur le jeu de données de validation, une fois que le modèle a été formé sur le jeu de données de validation.

Les ensembles profonds fournissent actuellement des estimations de pointe de l'incertitude lorsque les données ne sont pas distribuées. Ils fournissent des estimations d'incertitude épistémique plus élevées lorsqu'elles sont présentées avec des données différentes des données de formation. Cela est dû à la force de diversité des modèles sous-jacents qui composent l'ensemble profond. Nous suggérons que cinq modèles suffiront dans la plupart des situations.

Dans deux scénarios, nous vous recommandons de considérer le décrochage MC comme une alternative aux ensembles profonds : l'hébergement de plusieurs modèles est un problème en raison de la charge supplémentaire de l'infrastructure et de l'apprentissage par transfert (c'est-à-dire lors de l'utilisation de poids préentraînés). Lorsque les exigences d'hébergement pour plusieurs modèles sont préoccupantes, le décrochage MC est une alternative valable aux ensembles profonds. Si vous utilisez le décrochage MC pour remplacer les ensembles profonds, vous devez être prêt à sacrifier une certaine latence de calcul pour d'autres itérations à travers les données. Nous recommandons 30 à 100 itérations comme plage appropriée. Dans l'apprentissage par transfert, il y aura moins de diversification parmi les apprenants de base regroupés (c'est-à-dire que les poids du modèle sous-jacent seront plus similaires les uns aux autres). C'est pourquoi l'incertitude prédictive totale peut être faible dans l'apprentissage par transfert, en particulier dans les environnements où les données sont hors distribution. Par conséquent, dans la situation d'apprentissage par transfert, envisagez de compléter ou de remplacer des ensembles profonds par un décrochage MC.