Différence de précision (AD) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence de précision (AD)

La métrique de différence de précision (AD) est la différence de précision de prédiction entre différentes facettes. Cette métrique détermine si la classification par le modèle est plus précise pour une facette que pour l'autre. L'AD indique si une facette enregistre une plus grande proportion d'erreurs de type I et de type II. Elle ne peut cependant pas faire la différence entre les erreurs de type I et de type II. Par exemple, la précision du modèle peut être égale pour différents groupes d'âge, mais les erreurs peuvent être principalement des faux positifs (erreurs de type I) pour l'un des groupes et principalement des faux négatifs (erreurs de type II) pour l'autre.

En outre, si la précision d'approbation de prêt est nettement plus élevée pour une population d'âge moyen (facette a) que pour un autre groupe d'âge (facette d), alors, soit une proportion supérieure de demandeurs qualifiés du second groupe se voit refuser un prêt (FN), soit une proportion supérieure de demandeurs non qualifiés de ce groupe obtient un prêt (FP), ou les deux. Cela peut conduire à une injustice envers le second groupe, même si la proportion de prêts accordés est sensiblement identique pour les deux groupes d'âge, comme l'indique une valeur de DPPL proche de zéro.

La formule pour la métrique AD est la différence entre la précision de prédiction pour la facette a, ACCa, moins celle de la facette d, ACCd :

        AD = ACCa - ACCd

Où :

  • ACCa= (TPa + TNa)/(TPa + TNa+ FPa + FNa)

    • TPa sont les vrais positifs prédits pour la facette a

    • TNa sont les faux négatifs prédits pour la facette a.

    • FPa sont les faux positifs prédits pour la facette a.

    • FNa sont les faux négatifs prédits pour la facette a.

  • ACCd= (TPd + TNd)/(TPd + TNd+ FPd + FNd)

    • TPd sont les vrais positifs prédits pour la facette d.

    • TNd sont les vrais négatifs prédits pour la facette d

    • FPd sont les faux positifs prédits pour la facette d

    • FNd sont les faux négatifs prédits pour la facette d

Par exemple, supposons qu'un modèle accorde des prêts à 70 demandeurs d'une facette a qui en compte 100, et rejette les 30 autres. 10 n'auraient pas dû recevoir le prêt (FPa) et 60 ont été approuvés comme cela était prévu (TPa). Sur la totalité des rejets, 20 auraient dû être approuvés (FNa), tandis que 10 ont été correctement rejetés (TNa). La précision pour la facette a est la suivante :

        ACCa = (60 + 10)/(60 + 10 + 20 + 10) = 0,7

Ensuite, supposons qu'un modèle accorde des prêts à 50 demandeurs d'une facette d qui en compte 100, et rejette les 50 autres. 10 n'auraient pas dû recevoir le prêt (FPa) et 40 ont été approuvés comme cela était prévu (TPa). Sur la totalité des rejets, 40 auraient dû être approuvés (FNa), tandis que 10 ont été correctement rejetés (TNa). La précision pour la facette a est déterminée comme suit :

        ACCd = (40 + 10)/(40 + 10 + 40 + 10) = 0,5

La différence de précision est donc AD = ACCa - ACCd = 0,7 - 0,5 = 0,2. Comme la métrique est positive, cela indique un biais envers la facette d.

La plage de valeurs d'AD pour les étiquettes de facettes binaires et multicatégorie est [-1, +1].

  • Des valeurs positives se produisent lorsque la précision de prédiction pour la facette a est supérieure à celle pour la facette d. Cela signifie que la facette d pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette défavorisée d.

  • Des valeurs proches de zéro se produisent lorsque la précision de la prédiction pour la facette a est similaire à celle pour la facette d.

  • Des valeurs négatives se produisent lorsque la précision de prédiction pour la facette d est supérieure à celle pour la facette a. Cela signifie que la facette a pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette favorisée a.