Différence dans les proportions positives des étiquettes prédites (DPPL) - Amazon SageMaker

Différence dans les proportions positives des étiquettes prédites (DPPL)

La métrique Différence de proportions positives dans les étiquettes prédites (DPPL) détermine si le modèle prédit les résultats différemment pour chaque facette. Elle est définie comme la différence entre la proportion de prédictions positives (y' = 1) pour la facette a et la proportion de prédictions positives (y' = 1) pour la facette d. Par exemple, si le modèle prédit l'octroi de prêts à 60 % d'un groupe d'âge moyen (facette a) et à 50 % d'autres groupes d'âge (facette d), le biais peut être dirigé vers la facette d. Dans cet exemple, vous devez déterminer si la différence de biais de 10 % est importante. Une comparaison entre DPL et DPPL évalue si le biais initialement présent dans le jeu de données augmente ou diminue dans les prédictions du modèle après l'entraînement.

La formule de la différence dans les proportions des étiquettes prédites :

        DPPL = q'a - q'd

Où :

  • q'a = n'a(1)/na est la proportion prédite des membres de la facette a qui obtiennent un résultat positif de valeur 1. Dans notre exemple, la proportion d'une facette d'âge moyen à laquelle l'octroi d'un prêt est prédit. Ici, n'a(1) représente le nombre de membres de la facette a qui obtiennent un résultat positif prédit de valeur 1 et na est le nombre de membres de la facette a.

  • q'd = n'd(1)/nd est la proportion prédite des étiquettes de la facette d qui obtiennent un résultat positif de valeur 1. Dans notre exemple, une facette de personnes âgées et plus jeunes à laquelle l'octroi d'un prêt est prédit. Ici, n'd(1) représente le nombre de membres de la facette d qui obtiennent un résultat positif prédit et nd est le nombre de membres de la facette d.

Si la DPPL est suffisamment proche de 0, cela signifie que la parité démographique post-entraînement est atteinte.

Pour les étiquettes de facettes binaires et multicatégorie, les valeurs de DPL normalisées s'échelonnent sur l'intervalle [-1, 1]. Pour les étiquettes continues, les valeurs varient sur l'intervalle (-∞, +∞).

  • Des valeurs DPPL positives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette a par rapport à la facette d.

    D'où l'expression biais positif.

  • Des valeurs de DPPL proches de zéro indiquent qu'une proportion plus égale de résultats positifs est prédite aux facettes a et d, tandis qu'une valeur de zéro indique une parfaite parité démographique.

  • Des valeurs DPPL négatives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette d par rapport à la facette a. D'où l'expression biais négatif.