Différence dans les proportions d'étiquettes (DPL) - Amazon SageMaker

Différence dans les proportions d'étiquettes (DPL)

La différence dans les proportions d'étiquettes (DPL) compare la proportion de résultats observés avec des étiquettes positives pour la facette d à la proportion de résultats observés avec des étiquettes positives pour la facette a dans un jeu de données d'entraînement. Par exemple, vous pouvez l'utiliser pour comparer la proportion d'individus d'âge moyen (facette a) et d'autres groupes d'âge (facette d) dont les prêts financiers sont approuvés. Les modèles de machine learning tentent d'imiter au maximum les décisions de données d'entraînement. Ainsi, un modèle de machine learning entraîné sur un jeu de données avec une DPL élevée est susceptible de refléter le même déséquilibre dans ses prédictions futures.

La formule pour la différence dans les proportions d'étiquettes est la suivante :

        DPL = (qa - qd)

Où :

  • qa = na(1)/na est la proportion de la facette a ayant une valeur d'étiquette observée de 1. Par exemple, la proportion d'individus d'âge moyen dont les prêts sont approuvés. Ici na(1) représente le nombre de membres de la facette a qui obtiennent un résultat positif et na est le nombre de membres de la facette a.

  • qd = nd(1)/nd est la proportion de la facette d ayant une valeur d'étiquette observée de 1. Par exemple, la proportion d'individus autres que d'âge moyen dont les prêts sont approuvés. Ici nd(1) représente le nombre de membres de la facette d qui obtiennent un résultat positif et nd est le nombre de membres de la facette d.

Si la DPL est assez proche de 0, nous pouvons dire que la parité démographique est atteinte.

Pour les étiquettes de facettes binaires et multicatégoriels, les valeurs de DPL normalisées s'étendent sur l'intervalle (-1, 1). Pour les étiquettes continues, un seuil est défini pour réduire les étiquettes en binaire.

  • Les valeurs de DPL positives indiquent que la proportion de résultats positifs est plus élevée pour la facette a que pour la facette d.

  • Les valeurs de DPL proches de zéro indiquent que la proportion de résultats positifs est plus égale entre les facettes, tandis qu'une valeur de zéro indique une parfaite parité démographique.

  • Les valeurs DPL négatives indiquent que la proportion de résultats positifs est plus élevée pour la facette d que pour la facette a.

Le problème représenté par une DPL élevée varie d'un cas à l'autre. Une DPL élevée problématique peut signaler des problèmes sous-jacents dans les données. Par exemple, un jeu de données avec une DPL élevée peut refléter des biais historiques ou des préjudices basés sur l'âge, à l'égard de groupes démographiques, qu'il ne serait pas souhaitable qu'un modèle apprenne.