Mesure des biais de post-entraînement dans les données et les modèles

Amazon SageMaker Clarify fournit onze données post-formation et des mesures de biais du modèle pour aider à quantifier les différentes conceptions de l'équité. Il est impossible de satisfaire tous ces concepts simultanément. La sélection dépend alors des spécificités des cas impliquant le biais potentiel qui est analysé. La plupart de ces métriques sont une combinaison des nombres tirés des matrices de confusion de classification binaire pour les différents groupes démographiques. Comme une gamme étendue de métriques permet de définir l'équité et la partialité, le jugement humain est indispensable pour comprendre et choisir les métriques pertinentes pour le cas d'utilisation individuel, et les clients doivent consulter les parties prenantes appropriées afin de déterminer la mesure d'équité qui convient à leur application.

Nous utilisons la notation suivante pour les métriques de biais. Le modèle conceptuel décrit ici concerne la classification binaire. Selon cette classification, les événements sont étiquetés comme ayant seulement deux résultats possibles dans leur espace d'échantillonnage, soit un résultat positif (avec la valeur 1), soit un résultat négatif (avec la valeur 0). Ce cadre peut généralement être étendu de façon directe à la classification multicatégorielle, ou à des cas impliquant des résultats valorisés continus lorsque cela est nécessaire. Dans la classification binaire, des étiquettes positive et négative sont affectées aux résultats enregistrés dans un jeu de données brut pour une facette favorisée a et une facette défavorisée d. Ces étiquettes y sont appelées étiquettes observées pour les distinguer des étiquettes prédites y' qui sont affectées par un modèle de machine learning durant les étapes d'entraînement ou d'inférence du cycle de vie ML. Ces étiquettes servent à définir les distributions de probabilité P_a(y) et P_d(y) pour leurs résultats de facette respectifs.

étiquettes :
- y représente les n étiquettes observées pour les résultats d'événements dans un jeu de données d'entraînement.
- y' représente les étiquettes prédites pour les n étiquettes observées dans le jeu de données par un modèle entraîné.
résultats :
- un résultat positif (avec la valeur 1) pour un échantillon, l'acceptation d'une demande par exemple.
  - n⁽¹⁾ est le nombre d'étiquettes observées pour les résultats positifs (acceptations).
  - n'⁽¹⁾ est le nombre d'étiquettes prédites pour les résultats positifs (acceptations).
- un résultat négatif (avec la valeur 0) pour un échantillon, le rejet d'une demande par exemple.
  - n⁽⁰⁾ est le nombre d'étiquettes observées pour les résultats négatifs (rejets).
  - n'⁽⁰⁾ est le nombre d'étiquettes prédites pour les résultats négatifs (rejets).
valeurs de facettes :
- facette a - La valeur de fonction qui définit un profil démographique qui favorise le biais.
  - n_a est le nombre d'étiquettes observées pour la valeur de facette favorisée : n_a = n_a⁽¹⁾ + n_a⁽⁰⁾ la somme des étiquettes positives et négatives observées pour la facette de valeur a.
  - n'_a est le nombre d'étiquettes prédites pour la valeur de facette favorisée : n'_a = n'_a⁽¹⁾ + n'_a⁽⁰⁾ la somme des étiquettes positives et négatives de résultats prédits pour la facette de valeur a. Vous noterez que n'_a = n_a.
- facette d - La valeur de fonction qui définit un profil démographique qui défavorise le biais.
  - n_d est le nombre d'étiquettes observées pour la valeur de facette défavorisée : n_d = n_d⁽¹⁾ + n_d⁽⁰⁾ la somme des étiquettes positives et négatives observées pour la facette de valeur d.
  - n'_d est le nombre d'étiquettes prédites pour la valeur de facette défavorisée : n'_d = n'_d⁽¹⁾ + n'_d⁽⁰⁾ la somme des étiquettes positives et négatives de résultats prédits pour la facette de valeur d. Vous noterez que n'_d = n_d.
distributions de probabilité pour les résultats des données de facettes étiquetées :
- P_a(y) est la distribution de probabilité des étiquettes observées pour la facette a. Pour les données binaires étiquetées, cette distribution correspond au rapport entre le nombre d'échantillons dans la facette a étiquetés avec des résultats positifs et le nombre total, P_a(y¹) = n_a⁽¹⁾/ n_a, et au rapport entre le nombre d'échantillons étiquetés avec des résultats négatifs et le nombre total, P_a(y⁰) = n_a⁽⁰⁾/ n_a.
- P_d(y) est la distribution de probabilité des étiquettes observées pour la facette d. Pour les données binaires étiquetées, cette distribution correspond au rapport entre le nombre d'échantillons dans la facette d étiquetés avec des résultats positifs et le nombre total, P_d(y¹) = n_d⁽¹⁾/ n_d, et au rapport entre le nombre d'échantillons étiquetés avec des résultats négatifs et le nombre total, P_d(y⁰) = n_d⁽⁰⁾/ n_d.

Vous trouverez dans le tableau suivant un aide-mémoire contenant des conseils rapides et des liens vers les métriques de biais de post-entraînement.

Métriques de biais de post-entraînement
Métrique de biais de post-entraînement	Description	Exemple de question	Interpréter les valeurs des métriques
Différence dans les proportions positives des étiquettes prédites (DPPL)	Mesure la différence dans la proportion de prédictions positives entre la facette favorisée a et la facette défavorisée d.	Un déséquilibre éventuel entre les groupes démographiques dans les résultats positifs prédits peut-il indiquer un biais ?	Plage pour les étiquettes de facettes binaires et multicatégorie : `[-1,+1]` Plage pour les étiquettes continues : (-∞, +∞) Interprétation : Les valeurs positives indiquent que, pour la facette favorisée a, la proportion de résultats positifs prédits est plus élevée. Les valeurs proches de zéro indiquent que la proportion de résultats positifs prédits entre les facettes est plus égale. Les valeurs négatives indiquent que, pour la facette défavorisée d, la proportion de résultats positifs prédits est plus élevée.
Impact disparate (DI)	Mesure le rapport des proportions des étiquettes prédites pour la facette favorisée a et la facette défavorisée d.	Un déséquilibre éventuel entre les groupes démographiques dans les résultats positifs prédits peut-il indiquer un biais ?	Plage pour les étiquettes de facettes binaires et multicatégorie normalisées, et les étiquettes continues : [0, ∞) Interprétation : Des valeurs inférieures à 1 indiquent que, pour la facette favorisée a, la proportion de résultats positifs prédits est plus élevée. Une valeur égale à 1 indique la parité démographique. Des valeurs supérieures à 1 indiquent que, pour la facette défavorisée d, la proportion de résultats positifs prédits est plus élevée.
Disparité démographique conditionnelle dans les étiquettes prédites (CDDPL)	Mesure la disparité globale des étiquettes prédites entre les facettes, mais aussi par sous-groupes.	La proportion de rejets des demandes de prêt de certains groupes démographiques est-elle supérieure à la proportion d'acceptations ?	Plage de valeurs CDDPL pour les résultats binaires, multicatégorie et continus : `[-1, +1]` Des valeurs positives indiquent des résultats où la facette d reçoit plus de rejets que d'acceptations. Les valeurs proches de zéro n'indiquent aucune disparité démographique en moyenne. Des valeurs négatives indiquent des résultats où la facette a reçoit plus de rejets que d'acceptations.
FlipTest contrefactuel (FT)	Examine chaque membre de la facette d et évalue si des prédictions de modèle sont différentes pour des membres similaires de la facette a.	Un groupe d'âge spécifique correspond-il étroitement, sur toutes les caractéristiques, à un groupe d'âge différent, tout en étant payé plus en moyenne ?	La plage pour les étiquettes de facettes binaires et multicatégorie est `[-1, +1]`. Des valeurs positives se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables pour la facette défavorisée d est supérieur à celui de la facette favorisée. Des valeurs proches de zéro se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables et favorables s'équilibrent. Des valeurs négatives se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables pour la facette défavorisée d est inférieur à celui de la facette favorisée.
Différence de précision (AD)	Mesure la différence entre la précision de la prédiction pour les facettes favorisée et défavorisée.	La prédiction d'étiquettes par le modèle est-elle aussi précise pour les demandes de tous les groupes démographiques ?	La plage pour les étiquettes de facettes binaires et multicatégorie est `[-1, +1]`. Des valeurs positives indiquent que la facette d pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette défavorisée d. Des valeurs proches de zéro se produisent lorsque la précision de la prédiction pour la facette a est similaire à celle pour la facette d. Des valeurs négatives indiquent que la facette a pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette favorisée a.
Différence de rappel (RD)	Compare le rappel du modèle pour les facettes favorisée et défavorisée.	Le taux de rappel pour un modèle est plus élevé pour un groupe d'âge que pour un autre. Peut-on dire qu'il existe un biais basé sur l'âge au niveau des prêts ?	Plage de classification binaire et multicatégorie : `[-1, +1]`. Des valeurs positives suggèrent que le modèle trouve davantage de vrais positifs pour la facette a et qu'il est biaisé vis-à-vis de la facette défavorisée d. Des valeurs proches de zéro suggèrent que le modèle trouve à peu près le même nombre de vrais positifs dans les deux facettes et qu'il n'est pas biaisé. Des valeurs négatives suggèrent que le modèle trouve davantage de vrais positifs pour la facette d et qu'il est biaisé vis-à-vis de la facette favorisée a.
Différence dans l'acceptation conditionnelle (DCAcc)	Compare les étiquettes observées aux étiquettes prédites par un modèle. Évalue s'il en va de même entre les facettes pour les résultats positifs prédits (acceptations).	Dans le cadre de la comparaison d'un groupe d'âge à un autre, les prêts sont-ils acceptés plus fréquemment ou moins souvent que prévu (sur la base des qualifications) ?	Plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues : (-∞, +∞). Des valeurs positives indiquent un biais possible envers les candidats qualifiés de la facette défavorisée d. Des valeurs proches de zéro indiquent que l'acceptation est identique pour les candidats qualifiés des deux facettes. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette favorisée a.
Différence dans les taux d'acceptation (DAR)	Mesure la différence dans les rapports entre les résultats positifs observés (TP) et les positifs prédits (TP + FP) entre les facettes favorisée et défavorisée.	La précision du modèle est-elle identique lorsqu'il s'agit de prédire des acceptations de prêts pour les candidats qualifiés dans tous les groupes d'âge ?	La plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues est `[-1, +1]`. Des valeurs positives indiquent un biais possible envers la facette d, le nombre de faux positifs étant relativement plus élevé dans la facette défavorisée d. Des valeurs proches de zéro indiquent que les étiquettes observées pour les résultats positifs (acceptations) sont prédites avec une précision égale pour les deux facettes par le modèle. Des valeurs négatives indiquent un biais possible envers la facette a, le nombre de faux positifs étant relativement plus élevé dans la facette favorisée a.
Différence de spécificité (SD)	Compare la spécificité du modèle entre les facettes favorisée et défavorisée.	Existe-t-il un biais basé sur l'âge au niveau des prêts du fait que le modèle prédit une plus grande spécificité pour un groupe d'âge que pour un autre ?	Plage de classification binaire et multicatégorie : `[-1, +1]`. Des valeurs positives suggèrent que le modèle trouve moins de faux positifs pour la facette d et qu'il est biaisé vis-à-vis de la facette défavorisée d. Des valeurs proches de zéro suggèrent que le modèle trouve un nombre similaire de faux positifs dans les deux facettes et qu'il n'est pas biaisé. Des valeurs négatives suggèrent que le modèle trouve moins de faux positifs pour la facette a et qu'il est biaisé vis-à-vis de la facette favorisée a.
Différence dans les rejets conditionnels (DCR)	Compare les étiquettes observées aux étiquettes prédites par un modèle, et évalue s'il en va de même entre les facettes pour les résultats négatifs (rejets).	Le nombre de rejets de demandes de prêt est-il plus ou moins élevé que prédit pour un groupe d'âge par rapport à un autre selon les qualifications ?	Plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues : (-∞, +∞). Des valeurs positives indiquent un biais possible envers les candidats qualifiés de la facette défavorisée d. Des valeurs proches de zéro indiquent que les rejets sont identiques pour les candidats qualifiés des deux facettes. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette favorisée a.
Différence dans les taux de rejets (DRR)	Mesure la différence dans les rapports entre les résultats négatifs observés (TN) et les négatifs prédits (TN + FN) entre les facettes défavorisée et favorisée.	La précision du modèle est-elle identique lorsqu'il s'agit de prédire des rejets de prêts pour les candidats non qualifiés dans tous les groupes d'âge ?	La plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues est `[-1, +1]`. Des valeurs positives indiquent un biais possible envers la facette favorisée a, car le nombre de faux positifs est relativement plus élevé. Des valeurs proches de zéro indiquent que les résultats négatifs (rejets) sont prédits avec une précision égale pour les deux facettes. Des valeurs négatives indiquent un biais possible envers la facette défavorisée d, car le nombre de faux positifs est relativement plus élevé.
Égalité de traitement (TE)	Mesure la différence dans le rapport entre faux positifs et faux négatifs entre les facettes favorisée et défavorisée.	Dans les demandes de prêt, le rapport relatif entre faux positifs et faux négatifs est-il identique pour tous les groupes d'âge ?	Plage pour les étiquettes de facettes binaires et multicatégorie : (-∞, +∞). Des valeurs positives se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est supérieur à celui de la facette d. Des valeurs proches de zéro se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est semblable à celui de la facette d. Des valeurs négatives se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est inférieur à celui de la facette d.
Entropie généralisée (GE)	Mesure l'inégalité des bénéfices `b` affectés à chaque entrée par les prédictions de modèle.	Parmi les deux modèles candidats pour la classification des demandes de prêt, l'un conduit-il à une distribution plus inégale des résultats souhaités que l'autre ?	Plage pour les étiquettes binaires et multicatégorie : (0, 0,5). L'entropie généralisée (GE) n'est pas définie si le modèle prédit uniquement des faux négatifs. Des valeurs nulles surviennent quand toutes les prédictions sont correctes ou que toutes les prédictions sont des faux positifs. Des valeurs positives indiquent une inégalité des bénéfices ; 0,5 correspond à l'inégalité la plus importante.

Pour plus d'informations sur les métriques de biais de post-entraînement, consultez A Family of Fairness Measures for Machine Learning in Finance (Série de mesures d'équité pour le machine learning appliqué à la finance).

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Détection des biais de post-entraînement dans les données et les modèles

Différence dans les proportions positives des étiquettes prédites (DPPL)