Surconfiance déterministe - AWSConseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Surconfiance déterministe

Gal et Ghahramani (2016) a mis en garde contre l'interprétation des probabilités softmax comme des scores de confiance. Ils ont montré empiriquement que le fait de passer une estimation ponctuelle par la fonction d'activation softmax donne de grandes probabilités, alors que le fait de passer une distribution d'estimations par le softmax donne des scores de confiance plus raisonnables et inférieurs. Cettesurconfiance déterministeest en partie due à ce qui motive l'apprentissage d'une distribution prédictive , au lieu d'une seule prédiction .

Formellement, la conjecture déterministe d'excès de confiance peut être détaillée par l'inégalité suivante :


    Inégalité

Le représente l'entropie de Shannon, qui est plus grande lorsque les éléments du vecteur en entrée sont plus similaires, et est donc la plus grande pour les vecteurs uniformes. Ainsi, l'équation précédente indique que l'incertitude, en termes d'entropie de Shannon , du vecteur de probabilité softmax attendu d'un modèle bayésien (moyenne d'une distribution), sera supérieure ou égale au vecteur de probabilité softmax d'un modèle déterministe (à partir d'un modèle qui produit une estimation ponctuelle unique). Pour obtenir une preuve et une démonstration de l'inégalité dans l'équation précédente, voirAnnexe A.

L'excès de confiance déterministe affecte la fiabilité et la sécurité de nos modèles de Deep Learning. Considérez le cas où un modèle prédit en toute confiance qu'un article sur une chaîne d'assemblage n'est pas défectueux, alors que, en fait, il en résulte que l'article ignore le processus de contrôle de la qualité. Cet article défectueux peut ensuite être intégré à un produit plus volumineux, ce qui compromet son intégrité. Au mieux, le résultat final est une inefficacité si le défaut est détecté en bas de la ligne, ou pire, une défaillance totale du produit, si le défaut n'est pas détecté. Il est donc essentiel de comprendre et de surmonter les problèmes déterministes de surconfiance pour le succès de nos projets et pour l'avenir du Deep Learning.

Trois façons d'améliorer la qualité des mesures d'incertitude et de surmonter la surconfiance sont les suivantes :

L'excès de confiance déterministe est une théorie qui s'applique à la fois aux données en distribution et hors distribution.1Les sections suivantes expliquent comment diviser l'incertitude quantifiable totale2dans ses deux composantes constitutives : l'incertitude épistémique (modèle) et l'incertitude aléatoire (données) (Kendall et Gal 2017).

Remarques

1En particulier, l'excès de confiance des unités linéaires rectifiées (ReLU) a récemment été constaté comme un facteur important de surconfiance lorsque les données sont loin de la limite de décision, en particulier lorsque les données sont hors de distribution (Hein, Andriushchenko et Bitterwolf 2019). Une façon suggérée de devenir robuste contre la confiance excessive de ReLU est de modéliser la notion théorique de l'incertitude aléatoire de l'information (Gal et Ghahramani 2016,Hein, Andriushchenko et Bitterwolf 2019,van Amersfoort et coll. 2020), qui est expliqué plus loin dans ce guide.

2Certains champs décomposent l'incertitude totale en incertitude quantifiable et en incertitude non quantifiable. La discussion dans ce guide se limite à une incertitude quantifiable ; par conséquent, les termesIncertitude totaleetIncertitude quantifiable totalesont utilisés de manière interchangeable.