Différence dans les proportions positives des étiquettes prédites (DPPL) - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Différence dans les proportions positives des étiquettes prédites (DPPL)

La métrique Différence de proportions positives dans les étiquettes prédites (DPPL) détermine si le modèle prédit les résultats différemment pour chaque facette. Elle est définie comme la différence entre la proportion de prédictions positives (y' = 1) pour la facette a et la proportion de prédictions positives (y' = 1) pour la facette d. Par exemple, si le modèle prédit l'octroi de prêts à 60 % d'un groupe d'âge moyen (facette a) et à 50 % d'autres groupes d'âge (facette d), le biais peut être dirigé vers la facette d. Dans cet exemple, vous devez déterminer si la différence de 10 % est significative pour un cas de biais.

Une comparaison de la différence dans les proportions d'étiquettes (DPL), une mesure du biais avant l'entraînement, avec le DPPL, une mesure du biais après l'entraînement, permet de déterminer si le biais dans les proportions positives initialement présentes dans l'ensemble de données change après l'entraînement. Si le DPPL est supérieur au DPL, le biais dans des proportions positives augmente après l'entraînement. Si le DPPL est inférieur au DPL, le modèle n'a pas augmenté le biais dans des proportions positives après l'entraînement. La comparaison entre DPL et DPPL ne garantit pas que le modèle réduit les biais dans toutes les dimensions. Par exemple, le modèle peut toujours être biaisé lorsqu'il prend en compte d'autres indicateurs tels que FlipTest contrefactuel (FT) ouDifférence de précision (AD). Pour plus d'informations sur la détection des biais, consultez le billet de blog Découvrez comment Amazon SageMaker Clarify aide à détecter les biais. Voir Différence dans les proportions d'étiquettes (DPL) pour plus d'informations sur le DPL.

La formule du DPPL est la suivante :

        DPPL = q'a - q'd

Où :

  • q'a = n'a(1)/na est la proportion prédite des membres de la facette a qui obtiennent un résultat positif de valeur 1. Dans notre exemple, la proportion d'une facette d'âge moyen à laquelle l'octroi d'un prêt est prédit. Ici, n'a(1) représente le nombre de membres de la facette a qui obtiennent un résultat positif prédit de valeur 1 et na est le nombre de membres de la facette a.

  • q'd = n'd(1)/nd est la proportion prédite des étiquettes de la facette d qui obtiennent un résultat positif de valeur 1. Dans notre exemple, une facette de personnes âgées et plus jeunes à laquelle l'octroi d'un prêt est prédit. Ici, n'd(1) représente le nombre de membres de la facette d qui obtiennent un résultat positif prédit et nd est le nombre de membres de la facette d.

Si la DPPL est suffisamment proche de 0, cela signifie que la parité démographique de post-entraînement est atteinte.

Pour les étiquettes de facettes binaires et multicatégorie, les valeurs de DPL normalisées s'échelonnent sur l'intervalle [-1, 1]. Pour les étiquettes continues, les valeurs varient sur l'intervalle (-∞, +∞).

  • Des valeurs DPPL positives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette a par rapport à la facette d.

    D'où l'expression biais positif.

  • Des valeurs de DPPL proches de zéro indiquent qu'une proportion plus égale de résultats positifs est prédite aux facettes a et d, tandis qu'une valeur de zéro indique une parfaite parité démographique.

  • Des valeurs DPPL négatives indiquent qu'une proportion plus élevée de résultats positifs est prédite à la facette d par rapport à la facette a. D'où l'expression biais négatif.