Différence de rappel (RD) - Amazon SageMaker

Différence de rappel (RD)

La métrique de différence de rappel (RD) est la différence de rappel du modèle entre la facette favorisée a et la facette défavorisée d. La moindre différence dans ces rappels est une forme potentielle de biais. Le rappel est le taux de vrais positifs (TPR) qui mesure la fréquence à laquelle le modèle prédit correctement les cas qui devraient recevoir un résultat positif. Le rappel est parfait pour une facette si tous les cas y=1 sont correctement prédits comme y'=1 pour cette facette. Le rappel est plus important lorsque le modèle diminue les faux négatifs connus sous le nom d'erreur de type II. Par exemple, combien de personnes dans deux groupes différents (facettes a et d), qui devraient être admissibles aux prêts, sont correctement détectées par le modèle ? Si le taux de rappel est élevé pour l'octroi de prêts aux membres de la facette a, mais faible pour les membres de la facette d, la différence fournit une mesure de ce biais par rapport au groupe appartenant à la facette d.

La formule de calcul de la différence des taux de rappel pour les facettes a et d :

        RD = TPa/(TPa + FNa) - TPd/(TPd + FNd) = TPRa - TPRd

Où :

  • TPa sont les vrais positifs prédits pour la facette a.

  • FNa sont les faux négatifs prédits pour la facette a.

  • TPd sont les vrais positifs prédits pour la facette d.

  • FNd sont les faux négatifs prédits pour la facette d.

  • TPRa = TPa/(TPa + FNa) est le rappel pour la facette a ou son taux de vrais positifs.

  • TPRd = TPd/(TPd + FNd) est le rappel pour la facette d ou son taux de vrais positifs.

Considérons, par exemple, les matrices de confusion suivantes pour les facettes a et d.

Matrice de confusion pour la facette favorisée a
Prédictions de Classe a Résultat réel 0 Résultat réel 1 Total
0 20 5 25
1 10 65 75
Total 30 70 100
Matrice de confusion pour la facette défavorisée d
Prédictions de Classe d Résultat réel 0 Résultat réel 1 Total
0 18 7 25
1 5 20 25
Total 23 27 50

La valeur de la différence de rappel est RD = 65/70 - 20/27 = 0,93 - 0,74 = 0,19, soit un biais envers la facette d.

La plage de valeurs pour la différence de rappel entre les facettes a et d pour la classification binaire et multicatégorie est [-1, +1]. Cette métrique n'est pas disponible dans le cas d'étiquettes continues.

  • Des valeurs positives sont obtenues lorsqu'un rappel est plus élevé pour la facette a que pour la facette d. Cela suggère que le modèle trouve plus des vrais positifs pour la facette a que pour la facette d, ce qui est une forme de biais.

  • Des valeurs proches de zéro indiquent que le rappel comparé des facettes est similaire. Cela suggère que le modèle trouve à peu près le même nombre de vrais positifs dans les deux facettes et qu'il n'est pas biaisé.

  • Des valeurs négatives sont obtenues lorsqu'un rappel est plus élevé pour la facette d que pour la facette a. Cela suggère que le modèle trouve plus des vrais positifs pour la facette d que pour la facette a, ce qui est une forme de biais.