Étude de cas - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étude de cas

Cette section examine un scénario commercial réel et une application permettant de quantifier l'incertitude dans les systèmes de Deep Learning. Supposons que vous souhaitiez qu'un modèle d'apprentissage automatique juge automatiquement si une phrase est grammatiquement inacceptable (cas négatif) ou acceptable (cas positif). Prenez en compte le processus métier suivant : Si le modèle signale une phrase comme étant grammaticalement acceptable (positive), vous la traitez automatiquement, sans examen humain. Si le modèle signale la phrase comme inacceptable (négative), vous la transmettez à un humain pour révision et correction. L'étude de cas utilise des ensembles profonds ainsi qu'une échelle de température.

Ce scénario a deux objectifs commerciaux :

  • Rappel élevé pour les cas négatifs. Nous voulons capturer toutes les phrases présentant des erreurs grammaticales.

  • Réduction de la charge de travail manuelle. Nous voulons traiter automatiquement les cas qui ne comportent pas d'erreurs grammaticales autant que possible.

Résultats de référence

Lorsque vous appliquez un modèle unique aux données sans abandon au moment du test, voici les résultats suivants :

  • Pour l'échantillon positif : rappel = 94 %, précision = 82%

  • Pour l'échantillon négatif : rappel = 52 %, précision = 79%

Le modèle présente des performances beaucoup plus faibles pour les échantillons négatifs. Toutefois, pour les applications métiers, le rappel des échantillons négatifs doit être la mesure la plus importante.

Application d'ensembles profonds

Pour quantifier l'incertitude du modèle, nous avons utilisé les écarts types des prédictions de modèles individuels dans les ensembles profonds. Notre hypothèse est que pour les faux positifs (FP) et les faux négatifs (FN), nous nous attendons à voir l'incertitude être beaucoup plus élevée que pour les vrais positifs (TP) et les vrais négatifs (TN). Plus précisément, le modèle doit avoir une confiance élevée lorsqu'il est correct et une faible confiance lorsqu'il est erroné, de sorte que nous puissions utiliser l'incertitude pour savoir quand faire confiance à la sortie du modèle.

La matrice de confusion suivante montre la distribution de l'incertitude entre les données FN, FP, TN et TP. La probabilité d'un écart type négatif est l'écart type de la probabilité de négatifs entre les modèles. La médiane, la moyenne et les écarts types sont agrégés dans l'ensemble de données.

  Probabilité d'écart type négatif
Étiquette Médian Mean Écart-type standard

FN

0,061

0,060

0,027

FP

0,063

0,062

0,040

TENN.

0,039

0,045

0,026

TP

0,009

0,020

0,025

Comme le montre la matrice, le modèle a obtenu les meilleurs résultats pour TP, ce qui présente l'incertitude la plus faible. Le modèle a été le plus performant pour FP, ce qui présente l'incertitude la plus élevée, ce qui est conforme à notre hypothèse.

Pour visualiser directement la déviation du modèle entre les ensembles, le graphique suivant représente la probabilité dans une vue de dispersion pour FN et FP pour les données CoLA. Chaque ligne verticale est destinée à un échantillon d'entrée spécifique. Le graphique montre huit vues de modèles d'ensemble. En d'autres termes, chaque ligne verticale comporte huit points de données. Ces points se chevauchent parfaitement ou sont répartis dans une plage.

Le premier graphique montre que pour les FP, la probabilité d'être positif se répartit entre 0,5 et 0,925 entre les huit modèles de l'ensemble.


    Graphique FP d'une étude de cas Deep Learning

De même, le graphique suivant montre que pour les NF, la probabilité d'être négatif se répartit entre 0,5 et 0,85 parmi les huit modèles de l'ensemble.


    Graphique FN tiré d'une étude de cas Deep Learning

Définition d'une règle de décision

Pour maximiser les avantages des résultats, nous utilisons la règle d'ensemble suivante : Pour chaque entrée, nous prenons le modèle qui a la plus faible probabilité d'être positif (acceptable) pour prendre des décisions de marquage. Si la probabilité sélectionnée est supérieure ou égale à la valeur de seuil, nous signalons la requête comme acceptable et nous le traitons automatiquement. Sinon, nous envoyons le dossier pour examen humain. Il s'agit d'une règle de décision conservatrice qui convient dans des environnements hautement réglementés.

Évaluez les résultats

Le graphique suivant montre la précision, le rappel et le taux automatique (automatisation) pour les cas négatifs (cas comportant des erreurs grammaticales). Le taux d'automatisation fait référence au pourcentage de cas qui seront automatiquement traités car le modèle signale la phrase comme acceptable. Un modèle parfait avec un rappel et une précision de 100 % permettrait d'obtenir un taux d'automatisation de 69 % (cas positifs/cas totaux), car seuls les cas positifs seront automatiquement traités.


    Précision, rappel et taux automatique pour les cas négatifs dans l'étude de cas Deep Learning

La comparaison entre l'ensemble profond et les cas naïfs montre que, pour le même seuil, le rappel augmente considérablement et la précision diminue légèrement. (Le taux d'automatisation dépend du rapport d'échantillonnage positif et négatif dans le jeu de données de test.) Par Exemple:

  • En utilisant une valeur de seuil de 0,5 :

    • Avec un seul modèle, le rappel pour les cas négatifs sera de 52 %.

    • Avec l'approche de l'ensemble profond, la valeur de rappel sera de 69 %.

  • En utilisant une valeur de seuil de 0,88 :

    • Avec un seul modèle, le rappel pour les cas négatifs sera de 87 %.

    • Avec l'approche de l'ensemble profond, la valeur de rappel sera de 94 %.

Vous pouvez constater que Deep Ensemble peut augmenter certaines mesures (dans notre cas, le rappel de cas négatifs) pour les applications métier, sans qu'il soit nécessaire d'augmenter la taille des données de formation, leur qualité ou une modification de la méthode du modèle.