Différence dans les rejets conditionnels (DCR) - Amazon SageMaker

Différence dans les rejets conditionnels (DCR)

Cette métrique compare les étiquettes observées aux étiquettes prédites par le modèle et évalue s'il en va de même entre les facettes pour les résultats négatifs (rejets). Cette métrique retype un peu le biais humain en ce sens qu'elle quantifie combien d'autres résultats négatifs un modèle a prédits (étiquettes prédites y') pour une certaine facette par rapport à ce qui a été suggéré par les étiquettes dans le jeu de données d'entraînement (étiquettes observées y). Par exemple, si des demandes de prêt pour un groupe d'âge moyen (facette a) reçoivent plus de rejets (résultat négatif) que prédit par le modèle basé sur les qualifications, par rapport à la facette contenant d'autres groupes d'âge (facette d), cela pourrait indiquer un biais potentiel dans la façon dont les prêts sont rejetés.

La formule de calcul de la différence d'acceptation conditionnelle :

        DCR = rd- ra

Où :

  • rd = nd(0)/ n'd(0) est le rapport entre le nombre observé de résultats négatifs de valeur 1 (rejets) de la facette d et le nombre prédit de résultats négatifs (rejets) pour la facette d.

  • ra = na(0)/ n'a(0) est le rapport entre le nombre observé de résultats négatifs de valeur 0 (rejets) de la facette a et le nombre prédit de résultats négatifs de valeur 0 (rejets) pour la facette a.

La métrique DCR peut saisir les biais positif et négatif révélant un traitement préférentiel basé sur les qualifications. Examinez, dans les cas suivants, l'incidence du biais sur les rejets de prêts en fonction de l'âge.

Exemple 1 : biais positif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant le rejet de prêts à 60 personnes de la facette a et à 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par rapport à la métrique DPPL, mais les étiquettes observées montrent que des prêts ont été refusés à 50 personnes de la facette a et à 40 personnes de la facette d. En d'autres termes, le modèle a refusé des prêts à 17 % de moins de personnes d'âge moyen que les étiquettes observées dans les données d'entraînement le suggéraient (50/60 = 0,83), et a refusé des prêts à 33 % de plus de personnes d'autres groupes d'âge que les étiquettes observées le suggéraient (40/30 = 1,33). Le calcul de la valeur DCR quantifie cette différence entre -17 % et +33 %.

        DCR = 40/30 - 50/60 = 1/2

Exemple 2 : biais négatif

Supposons un jeu de données composé de 100 personnes d'âge moyen (facette a) et de 50 personnes d'autres groupes d'âge (facette d) qui ont demandé des prêts, le modèle recommandant le rejet de prêts à 60 personnes de la facette a et à 30 personnes de la facette d. Les proportions prédites ne sont donc pas biaisées par rapport à la métrique DPPL, mais les étiquettes observées montrent que des prêts ont été refusés à 70 personnes de la facette a et à 20 personnes de la facette d. En d'autres termes, le modèle a refusé des prêts à 17 % de plus de personnes d'âge moyen que les étiquettes observées dans les données d'entraînement le suggéraient (70/60 = 1,17), et a refusé des prêts à 33 % de moins de personnes d'autres groupes d'âge que les étiquettes observées le suggéraient (20/30 = 0,67). Le calcul de la valeur DCR quantifie cette différence entre 17 % et -33 %.

        DCR = 20/30 - 70/60 = -1/2

La plage de valeurs pour les différences de rejet conditionnel des étiquettes binaires, multicatégorie et continues est (-∞, +∞).

  • Des valeurs positives se produisent lorsque le rapport entre le nombre observé de rejets et les rejets prédits pour la facette d est supérieur au même rapport pour la facette a. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette d. Le biais apparent est d'autant plus extrême que la valeur de la métrique DCR est élevée.

  • Des valeurs proches de zéro se produisent lorsque le rapport entre le nombre observé de rejets et les acceptations prédites pour la facette a est similaire au rapport pour la facette d. Ces valeurs indiquent que les taux de rejets prédits sont conformes aux valeurs observées dans les données étiquetées et que les rejets s'appliquent de la même manière aux candidats qualifiés des deux facettes.

  • Des valeurs négatives se produisent lorsque le rapport entre le nombre observé de rejets et les rejets prédits pour la facette d est inférieur au rapport pour la facette a. Des valeurs négatives indiquent un biais possible envers les candidats qualifiés de la facette a. Le biais apparent est d'autant plus extrême que la métrique DCR est négative.