Différence dans les taux de rejets (DRR) - Amazon SageMaker

Différence dans les taux de rejets (DRR)

La métrique de la différence dans les taux de rejets (DRR) est la différence dans les rapports entre les prédictions de vrais négatifs (TN) et les négatifs observés (TN + FN) pour les facettes a et d. Cette métrique mesure la différence de précision du modèle pour prédire les rejets à partir de ces deux facettes. La précision mesure la fraction de candidats non qualifiés du groupe de candidats non qualifiés, identifiés comme tels par le modèle. Si la précision du modèle pour prédire les candidats non qualifiés diverge entre les facettes, il s'agit là d'un biais et son ampleur est mesurée par la DRR.

La formule de calcul de la différence de taux de rejets entre les facettes a et d :

        DRR = TNd/(TNd + FNd) - TNa/(TNa + FNa)

Où :

  • TNd sont les vrais négatifs prédits pour la facetteD.

  • FNd sont les faux négatifs prédits pour la facette d.

  • TPa sont les vrais négatifs prédits pour la facettea.

  • FNa sont les faux négatifs prédits pour la facette a.

Par exemple, supposons que le modèle refuse d'accorder un prêt à 100 candidats d'âge moyen (facette a) (étiquettes négatives prédites), dont 80 ne sont pas qualifiés (étiquettes négatives observées). Supposons également que le modèle accepte d'accorder un prêt à 50 candidats d'autres groupes d'âge (facette d) (étiquettes positives prédites), dont seulement 40 ne sont pas qualifiés (étiquettes positives observées). Comme la DRR = 40/50 - 80/100 = 0, aucun biais n'est donc indiqué.

La plage de valeurs pour la DRR d'étiquettes binaires, multicatégorie et continues est [-1, +1].

  • Des valeurs positives se produisent lorsque le rapport entre les négatifs prédits (rejets) et les résultats négatifs observés (candidats non qualifiés) pour la facette d est supérieur au même rapport pour la facette a. Ces valeurs indiquent un biais possible envers la facette favorisée a dû à la présence d'un nombre relativement supérieur de faux négatifs dans la facette a. Le biais apparent est d'autant plus extrême que la différence des rapports est importante.

  • Des valeurs proches de zéro se produisent lorsque le rapport entre les négatifs prédits (rejets) et les résultats négatifs observés (candidats non qualifiés) pour les facettes a et d a des valeurs similaires, ce qui indique que le modèle prédit avec la même précision des étiquettes observées pour les résultats négatifs.

  • Des valeurs négatives se produisent lorsque le rapport entre les négatifs prédits (rejets) et les résultats négatifs observés (candidats non qualifiés) pour la facette a est supérieur au rapport de la facette d. Ces valeurs indiquent un biais possible envers la facette défavorisée d dû à la présence d'un nombre relativement supérieur de faux positifs dans la facette d. Le biais apparent est d'autant plus extrême que la différence des rapports est négative.