Mesurer les biais post-entraînement dans les données et les modèles - Amazon SageMaker

Mesurer les biais post-entraînement dans les données et les modèles

Amazon SageMaker Clarify fournit onze métriques de biais post-entraînement dans les données et les modèles pour faciliter la quantification de diverses conceptions d'équité. Il est impossible de satisfaire tous ces concepts simultanément. La sélection dépend alors des spécificités des cas impliquant le biais potentiel qui est analysé. La plupart de ces métriques sont une combinaison des nombres tirés des matrices de confusion de classification binaire pour les différents groupes démographiques. Comme une gamme étendue de métriques permet de définir l'équité et la partialité, le jugement humain est indispensable pour comprendre et choisir les métriques pertinentes pour le cas d'utilisation individuel, et les clients doivent consulter les parties prenantes appropriées afin de déterminer la mesure d'équité qui convient à leur application.

Nous utilisons la notation suivante pour les métriques de biais. Le modèle conceptuel décrit ici concerne la classification binaire. Selon cette classification, les événements sont étiquetés comme ayant seulement deux résultats possibles dans leur espace d'échantillonnage, soit un résultat positif (avec la valeur 1), soit un résultat négatif (avec la valeur 0). Ce cadre peut généralement être étendu de façon directe à la classification multicatégorielle, ou à des cas impliquant des résultats valorisés continus lorsque cela est nécessaire. Dans la classification binaire, des étiquettes positive et négative sont affectées aux résultats enregistrés dans un jeu de données brut pour une facette favorisée a et une facette défavorisée d. Ces étiquettes y sont appelées des étiquettes observées pour les distinguer des étiquettes prédites y' qui sont affectées par un modèle de machine learning durant les étapes d'entraînement ou d'inférence du cycle de vie ML. Ces étiquettes servent à définir les distributions de probabilité Pa(y) et Pd(y) pour leurs résultats de facette respectifs.

  • étiquettes :

    • y représente les n étiquettes observées pour les résultats d'événements dans un jeu de données d'entraînement.

    • y' représente les étiquettes prédites pour les n étiquettes observées dans le jeu de données par un modèle entraîné.

  • résultats :

    • un résultat positif (avec la valeur 1) pour un échantillon, l'acceptation d'une demande par exemple.

      • n(1) est le nombre d'étiquettes observées pour les résultats positifs (acceptations).

      • n'(1) est le nombre d'étiquettes prédites pour les résultats positifs (acceptations).

    • un résultat négatif (avec la valeur 0) pour un échantillon, le rejet d'une demande par exemple.

      • n(0) est le nombre d'étiquettes observées pour les résultats négatifs (rejets).

      • n'(0) est le nombre d'étiquettes prédites pour les résultats négatifs (rejets).

  • valeurs de facettes :

    • facette a - La valeur de fonction qui définit un profil démographique favorisant le biais.

      • na est le nombre d'étiquettes observées pour la valeur de facette favorisée : na = na(1) + na(0) la somme des étiquettes positives et négatives observées pour la facette de valeur a.

      • n'a est le nombre d'étiquettes prédites pour la valeur de facette favorisée : n'a = n'a(1) + n'a(0) la somme des étiquettes positives et négatives de résultats prédits pour la facette de valeur a. Vous noterez que n'a = na.

    • facette d - La valeur de fonction qui définit un profil démographique défavorisant le biais.

      • nd est le nombre d'étiquettes observées pour la valeur de facette défavorisée : nd = nd(1) + nd(0) la somme des étiquettes positives et négatives observées pour la facette de valeur d.

      • n'd est le nombre d'étiquettes prédites pour la valeur de facette défavorisée : n'd = n'd(1) + n'd(0) la somme des étiquettes positives et négatives de résultats prédits pour la facette de valeur d. Vous noterez que n'd = nd.

  • distributions de probabilité pour les résultats des données de facettes étiquetées :

    • Pa(y) est la distribution de probabilité des étiquettes observées pour la facette a. Pour les données binaires étiquetées, cette distribution correspond au rapport entre le nombre d'échantillons dans la facette a étiquetés avec des résultats positifs et le nombre total, Pa(y1) = na(1)/ na, et au rapport entre le nombre d'échantillons étiquetés avec des résultats négatifs et le nombre total, Pa(y0) = na(0)/ na.

    • Pd(y) est la distribution de probabilité des étiquettes observées pour la facette d. Pour les données binaires étiquetées, cette distribution correspond au rapport entre le nombre d'échantillons dans la facette d étiquetés avec des résultats positifs et le nombre total, Pd(y1) = nd(1)/ nd, et au rapport entre le nombre d'échantillons étiquetés avec des résultats négatifs et le nombre total, Pd(y0) = nd(0)/ nd.

Vous trouverez dans le tableau suivant un aide-mémoire contenant des conseils rapides et des liens vers les métriques de biais post-entraînement.

Métriques de biais post-entraînement
Métrique de biais post-entraînement Description Exemple de question Interpréter les valeurs des métriques
Différence dans les proportions positives des étiquettes prédites (DPPL) Mesure la différence dans la proportion de prédictions positives entre la facette favorisée a et la facette défavorisée d.

Un déséquilibre éventuel entre les groupes démographiques dans les résultats positifs prédits peut-il indiquer un biais ?

Plage pour les étiquettes de facettes binaires et multicatégorie normalisées : [-1, +1]

Plage pour les étiquettes continues : (-∞, +∞)

Interprétation :

  • Les valeurs positives indiquent que, pour la facette favorisée a, la proportion de résultats positifs prédits est plus élevée.

  • Les valeurs proches de zéro indiquent que la proportion de résultats positifs prédits entre les facettes est plus égale.

  • Les valeurs négatives indiquent que, pour la facette défavorisée d, la proportion de résultats positifs prédits est plus élevée.

Impact disparate (DI) Mesure le rapport des proportions des étiquettes prédites pour la facette favorisée a et la facette défavorisée d. Un déséquilibre éventuel entre les groupes démographiques dans les résultats positifs prédits peut-il indiquer un biais ?

Plage pour les étiquettes de facettes binaires et multicatégorie normalisées, et les étiquettes continues : [0, ∞)

Interprétation :

  • Des valeurs supérieures à 1 indiquent que, pour la facette favorisée a, la proportion de résultats positifs prédits est plus élevée.

  • Une valeur égale à 1 indique la parité démographique.

  • Des valeurs inférieures à 1 indiquent que, pour la facette défavorisée d, la proportion de résultats positifs prédits est plus élevée.

Différence dans l'acceptation conditionnelle (DCAcc) Compare les étiquettes observées aux étiquettes prédites par un modèle, et évalue s'il en va de même entre les facettes pour les résultats positifs prédits (acceptations). Le nombre d'acceptations de demandes de prêt est-il plus ou moins élevé que prédit pour un groupe d'âge par rapport à un autre selon les qualifications ?

Plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues : (-∞, +∞).

  • Des valeurs positives indiquent un biais possible envers les candidats qualifiés de la facette défavorisée d.

  • Des valeurs proches de zéro indiquent que l'acceptation est identique pour les candidats qualifiés des deux facettes.

  • Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette favorisée a.

Différence dans les rejets conditionnels (DCR) Compare les étiquettes observées aux étiquettes prédites par un modèle, et évalue s'il en va de même entre les facettes pour les résultats négatifs (rejets). Le nombre de rejets de demandes de prêt est-il plus ou moins élevé que prédit pour un groupe d'âge par rapport à un autre selon les qualifications ? Plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues : (-∞, +∞).
  • Des valeurs positives indiquent un biais possible envers les candidats qualifiés de la facette défavorisée d.

  • Des valeurs proches de zéro indiquent que les rejets sont identiques pour les candidats qualifiés des deux facettes.

  • Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette favorisée a.

Différence de rappel (RD) Compare le rappel du modèle pour les facettes favorisée et défavorisée. Le taux de rappel pour un modèle est plus élevé pour un groupe d'âge que pour un autre. Peut-on dire qu'il existe un biais basé sur l'âge au niveau des prêts ?

Plage de classification binaire et multicatégorie : [-1, +1].

  • Des valeurs positives suggèrent que le modèle trouve davantage de vrais positifs pour la facette a et qu'il est biaisé vis-à-vis de la facette défavorisée d.

  • Des valeurs proches de zéro suggèrent que le modèle trouve à peu près le même nombre de vrais positifs dans les deux facettes et qu'il n'est pas biaisé.

  • Des valeurs négatives suggèrent que le modèle trouve davantage de vrais positifs pour la facette d et qu'il est biaisé vis-à-vis de la facette favorisée a.

Différence dans les taux d'acceptation (DAR) Mesure la différence dans les rapports entre les résultats positifs observés (TP) et les positifs prédits (TP + FP) entre les facettes favorisée et défavorisée. La précision du modèle est-elle identique lorsqu'il s'agit de prédire des acceptations de prêts pour les candidats qualifiés dans tous les groupes d'âge ? La plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues est [-1, +1].
  • Des valeurs positives indiquent un biais possible envers la facette d, le nombre de faux positifs étant relativement plus élevé dans la facette défavorisée d.

  • Des valeurs proches de zéro indiquent que les étiquettes observées pour les résultats positifs (acceptations) sont prédites avec une précision égale pour les deux facettes par le modèle.

  • Des valeurs négatives indiquent un biais possible envers la facette a, le nombre de faux positifs étant relativement plus élevé dans la facette favorisée a.

Différence dans les taux de rejets (DRR) Mesure la différence dans les rapports entre les résultats négatifs observés (TN) et les négatifs prédits (TN + FN) entre les facettes défavorisée et favorisée. La précision du modèle est-elle identique lorsqu'il s'agit de prédire des rejets de prêts pour les candidats non qualifiés dans tous les groupes d'âge ? La plage pour les étiquettes de facettes binaires et multicatégorie, et les étiquettes continues est [-1, +1].
  • Des valeurs positives indiquent un biais possible envers la facette favorisée a, car le nombre de faux positifs est relativement plus élevé.

  • Des valeurs proches de zéro indiquent que les étiquettes observées pour les résultats négatifs (rejets) sont prédites avec une précision égale pour les deux facettes par le modèle.

  • Des valeurs négatives indiquent un biais possible envers la facette défavorisée d, car le nombre de faux positifs est relativement plus élevé.

Différence de précision (AD) Mesure la différence entre la précision de la prédiction pour les facettes favorisée et défavorisée. La prédiction d'étiquettes par le modèle est-elle aussi précise pour les demandes de tous les groupes démographiques ? La plage pour les étiquettes de facettes binaires et multicatégorie est [-1, +1].
  • Des valeurs positives indiquent que la facette d pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette défavorisée d.

  • Des valeurs proches de zéro se produisent lorsque la précision de la prédiction pour la facette a est similaire à celle pour la facette d.

  • Des valeurs négatives indiquent que la facette a pâtit davantage d'une combinaison de faux positifs (erreurs de type I) ou de faux négatifs (erreurs de type II). Cela indique donc un biais potentiel envers la facette favorisée a.

Égalité de traitement (TE) Mesure la différence dans le rapport entre faux positifs et faux négatifs entre les facettes favorisée et défavorisée. Dans les demandes de prêt, le rapport relatif entre faux positifs et faux négatifs est-il identique pour tous les groupes d'âge ? Plage pour les étiquettes de facettes binaires et multicatégorie : (-∞, +∞).
  • Des valeurs positives se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est supérieur à celui de la facette d.

  • Des valeurs proches de zéro se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est semblable à celui de la facette d.

  • Des valeurs négatives se produisent lorsque le rapport entre faux positifs et faux négatifs pour la facette a est inférieur à celui de la facette d.

Disparité démographique conditionnelle dans les étiquettes prédites (CDDPL) Mesure la disparité globale des étiquettes prédites entre les facettes, mais aussi par sous-groupes. La proportion de rejets des demandes de prêt de certains groupes démographiques est-elle supérieure à la proportion d'acceptations ?

Plage de valeurs CDGPL pour les résultats binaires, multicatégorie et continus : [-1, +1]

  • Des valeurs positives indiquent un résultat où la facette d reçoit plus de rejets que d'acceptations.

  • Des valeurs proches de zéro n'indiquent aucune disparité démographique en moyenne.

  • Des valeurs négatives indiquent un résultat où la facette a reçoit plus de rejets que d'acceptations.

FlipTest contrefactuel (FT) Examine chaque membre de la facette d et évalue si des prédictions de modèle sont différentes pour des membres similaires de la facette a. Un groupe d'âge spécifique répondant étroitement à toutes les caractéristiques d'un autre groupe d'âge est-il payé en moyenne plus que cet autre groupe d'âge ? » La plage pour les étiquettes de facettes binaires et multicatégorie est [-1, +1].
  • Des valeurs positives se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables pour la facette défavorisée d est supérieur à celui de la facette favorisée.

  • Des valeurs proches de zéro se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables et favorables s'équilibrent.

  • Des valeurs négatives se produisent lorsque le nombre de décisions de FlipTest contrefactuel défavorables pour la facette défavorisée d est inférieur à celui de la facette favorisée.

Pour de plus amples informations sur les métriques de biais post-entraînement, veuillez consulter A Family of Fairness Measures for Machine Learning in Finance (Une série de mesures d'équité pour le machine learning appliqué à la finance).