Disparité démographique conditionnelle (CDD)

La métrique de disparité démographique (DD) détermine si une proportion des résultats rejetés dans le jeu de données est supérieure à celle des résultats acceptés pour une facette. Dans le cas de figure binaire où il y a deux facettes, hommes et femmes par exemple, qui constituent le jeu de données, la facette défavorisée est étiquetée facette d et la facette favorisée est étiquetée facette a. Par exemple, dans le cas des admissions à l'université, si les candidats de sexe féminin représentaient 46 % des rejets et seulement 32 % des acceptations, nous pouvons parler de disparité démographique car le taux de rejet des candidats de sexe féminin dépasse leur taux d'acceptation. Les femmes candidates sont étiquetées facette d dans ce cas. Si les hommes représentent 54 % des candidats rejetés et 68 % des candidats acceptés, alors il n'y a pas de disparité démographique pour cette facette puisque le taux de rejet est inférieur au taux d'acceptation. Dans ce cas, les candidats masculins sont étiquetés facette a.

La formule pour la disparité démographique de la facette la moins favorisée d est la suivante :

DD_d = n_d⁽⁰⁾/n⁽⁰⁾ - n_d⁽¹⁾/n⁽¹⁾ = P_d^R(y⁰) - P_d^A(y¹)

Où :

n⁽⁰⁾ = n_a⁽⁰⁾+ n_d⁽⁰⁾ représente le nombre total de résultats rejetés dans le jeu de données pour la facette favorisée a et une facette défavorisée d.
n⁽¹⁾ = n_a⁽¹⁾+ n_d⁽¹⁾ représente le nombre total de résultats acceptés dans le jeu de données pour la facette favorisée a et la facette défavorisée d.
P_d^R(y⁰) est la proportion des résultats rejetés (avec la valeur 0) dans la facette d.
P_d^A(y¹) est la proportion des résultats acceptés (valeur 1) dans la facette d.

Pour l'exemple de l'admission à l'université, la disparité démographique pour les femmes est DD_d = 0,46 - 0,32 = 0,14. Pour les hommes : DD_a = 0,54 - 0,68 = 0,14.

Une métrique de disparité démographique conditionnelle (CDD) qui conditionne une DD sur des attributs définissant une strate de sous-groupes dans le jeu de données est nécessaire pour exclure le paradoxe de Simpson. Le regroupement peut donner des informations sur la cause des disparités démographiques apparentes pour les facettes moins favorisées. Le cas classique s'est produit lors des admissions à Berkeley où les hommes étaient globalement acceptés à un taux plus élevé que les femmes. Les statistiques de ce cas ont été utilisées dans l'exemple de calcul de la DD. Cependant, à l'examen des sous-groupes départementaux, les taux d'admission des femmes étaient supérieurs à ceux des hommes lorsque qu'ils sont conditionnés par le département. Cela venait du fait que les femmes avaient déposé une demande dans des départements où les taux d'acceptation étaient inférieurs à ceux des hommes. L'examen des taux d'acceptation des sous-groupes a révélé que les femmes étaient effectivement acceptées à un taux plus élevé que les hommes dans les départements où les taux d'acceptation étaient inférieurs.

La métrique CDD fournit une métrique unique pour toutes les disparités trouvées dans les sous-groupes définis par un attribut d'un jeu de données en en faisant la moyenne. Elle est définie comme la moyenne pondérée des disparités démographiques (DD_i) pour chacun des sous-groupes, la disparité de chaque sous-groupe étant pondérée proportionnellement au nombre d'observations qu'il contient. La formule pour la disparité démographique conditionnelle est la suivante :

CDD = (1/n)_*∑_in_i _*DD_i

Où :

∑_in_i = n est le nombre total d'observations et n_i est le nombre d'observations pour chaque sous-groupe.
DD_i = n_i⁽⁰⁾/n⁽⁰⁾ - n_i⁽¹⁾/n⁽¹⁾ = P_i^R(y⁰) - P_i^A(y¹) est la disparité démographique pour le énième sous-groupe.

La disparité démographique pour un sous-groupe (DD_i) correspond à la différence entre la proportion de résultats rejetées et la proportion de résultats acceptés pour chaque sous-groupe.

La plage des valeurs DD pour les résultats binaires du jeu de données complet DD_d ou pour ses sous-groupes conditionnés DD_i est [-1, +1].

+1 : lorsqu'il n'y a aucun rejet dans la facette a ou le sous-groupe, et aucune acceptation dans la facette d ou le sous-groupe
Les valeurs positives indiquent une disparité démographique dans la mesure où la proportion des résultats rejetés dans le jeu de données pour la facette d ou le sous-groupe est supérieure à celle des résultats acceptés. Plus la valeur est élevée, moins la facette est favorisée et plus la disparité est grande.
Les valeurs négatives indiquent qu'il n'y a pas de disparité démographique car la facette d ou le sous-groupe présente une plus grande proportion des résultats acceptés dans le jeu de données que de résultats rejetés. Plus la valeur est faible, plus la facette est favorisée.
-1 : lorsqu'il n'y a aucun rejet dans la facette d ou le sous-groupe, et aucune acceptation dans la facette a ou le sous-groupe

Si vous ne posez aucune condition, la CDD est égale à zéro si et seulement si le DPL est égal à zéro.

Cette métrique est utile pour explorer les concepts de discrimination directe et indirecte et de justification objective dans la législation et la jurisprudence de l'UE et du Royaume-Uni en matière de non-discrimination. Pour de plus amples informations, veuillez consulter Why Fairness Cannot Be Automated (Pourquoi l'équité ne peut pas être automatisée). Ce document contient également les données pertinentes et l'analyse du cas des admissions à Berkeley qui montre comment le fait de conditionner les taux d'admission à des sous-groupes de départements illustre le paradoxe de Simpson.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Kolmogorov-Smirnov (KS)

Générez des rapports sur les biais dans les données de pré-entraînement dans Studio SageMaker