Disparité démographique conditionnelle dans les étiquettes prédites (CDDPL) - Amazon SageMaker

Disparité démographique conditionnelle dans les étiquettes prédites (CDDPL)

La métrique de disparité démographique (DDPL) détermine si, pour la facette d, la proportion d'étiquettes rejetées prédites est supérieure à celle d'étiquettes acceptées prédites. Elle permet de comparer la différence entre la proportion de rejets prédite et la proportion d'acceptations prédite selon les facettes. Cette métrique est exactement la même que la métrique CDD de pré-entraînement, sauf qu'elle est calculée à partir des étiquettes prédites et non des étiquettes observées. Cette métrique se situe dans la plage (-1, +1).

La formule de calcul des prédictions de disparité démographique pour les étiquettes de la facette d est la suivante :

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)

Où :

  • n'(0) = n'a(0) + n'd(0) est le nombre d'étiquettes rejetées prédites pour les facettes a et d.

  • n'(1) = n'a(1) + n'd(1) est le nombre d'étiquettes acceptées prédites pour les facettes a et d.

  • PdR(y'0) est la proportion d'étiquettes rejetées prédites (valeur 0) dans la facette d.

  • PdA(y'1) est la proportion d'étiquettes acceptées prédites (valeur 1) dans la facette d.

Une métrique de disparité démographique conditionnelle dans les étiquettes prédites (CDGPL) qui conditionne une DDPL sur des attributs définissant une strate de sous-groupes dans le jeu de données est nécessaire pour exclure le paradoxe de Simpson. Le regroupement peut donner des informations sur la cause des disparités démographiques apparentes pour les facettes moins favorisées. Le cas classique s'est produit lors des admissions à Berkeley où les hommes étaient globalement acceptés à un taux plus élevé que les femmes. Cependant, à l'examen des sous-groupes départementaux, les taux d'admission des femmes étaient supérieurs à ceux des hommes. Cela venait du fait que les femmes avaient déposé une demande dans des départements où les taux d'acceptation étaient inférieurs à ceux des hommes. L'examen des taux d'acceptation des sous-groupes a révélé que les femmes étaient effectivement acceptées à un taux plus élevé que les hommes dans les départements où les taux d'acceptation étaient inférieurs.

La métrique CDGPL fournit une mesure unique pour toutes les disparités trouvées dans les sous-groupes définis par un attribut d'un jeu de données en en faisant la moyenne. Elle est définie comme la moyenne pondérée des disparités démographiques dans les étiquettes prédites (DDPLi) pour chacun des sous-groupes, la disparité de chaque sous-groupe étant pondérée proportionnellement au nombre d'observations qu'il contient. La formule de calcul de la disparité démographique conditionnelle dans les étiquettes prédites est la suivante :

        CDDPL = (1/n)*ini *DDPLi

Où :

  • ini = n est le nombre total d'observations et ni est le nombre d'observations pour chaque sous-groupe.

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) est la disparité démographique des étiquettes prédites pour le sous-groupe.

Ainsi, la disparité démographique pour un sous-groupe dans les étiquettes prédites (DDPLi) correspond à la différence entre la proportion d'étiquettes rejetées prédites et la proportion d'étiquettes acceptées prédites pour chaque sous-groupe.

La plage de valeurs CDGPL pour les résultats binaires, multicatégorie et continus est [-1, +1].

  • +1 : lorsqu'il n'y a aucune étiquette de rejet prédite pour la facette a ou le sous-groupe, et aucune acceptation prédite pour la facette d ou le sous-groupe.

  • Des valeurs positives indiquent une disparité démographique dans les étiquettes prédites du fait que la proportion d'étiquettes rejetées prédites pour la facette d ou le sous-groupe est supérieure à celle d'étiquettes acceptées prédites. La disparité est d'autant plus importante que la valeur est élevée.

  • Des valeurs proches de zéro indiquent qu'il n'y a pas de disparité démographique en moyenne.

  • Des valeurs négatives indiquent une disparité démographique dans les étiquettes prédites du fait que la proportion d'étiquettes rejetées prédites pour la facette a ou le sous-groupe est supérieure à celle d'étiquettes acceptées prédites. La disparité est d'autant plus importante que la valeur est faible.

  • -1 : lorsqu'il n'y a aucune étiquette de rejet prédite pour la facette d ou le sous-groupe, et aucune acceptation prédite pour la facette d ou le sous-groupe.