Détecter le biais des données de pré-entraînement - Amazon SageMaker

Détecter le biais des données de pré-entraînement

Le biais, la discrimination et l'équité algorithmiques, ainsi que des rubriques connexes ont été étudiés dans des disciplines telles que le droit, la stratégie et l'informatique. Un système informatique peut être considéré comme biaisé s'il est discriminatoire à l'égard de certains individus ou groupes d'individus. Les modèles de machine learning qui alimentent ces applications exploitent les données, et ces données peuvent refléter des disparités ou d'autres biais inhérents. Par exemple, les données d'entraînement peuvent ne pas disposer d'une représentation suffisante de divers groupes démographiques ou contenir des étiquettes biaisées. Les modèles de machine learning entraînés sur des jeux de données présentant ces biais peuvent finir par les apprendre, puis les reproduire voire les exacerber dans leurs prédictions. Le domaine du machine learning offre l'occasion d'aborder les biais en les détectant et en les mesurant à chaque étape du cycle de vie ML. Vous pouvez utiliser Amazon SageMaker Clarify pour déterminer si les données utilisées pour les modèles d'entraînement codent un biais

Le biais peut être mesuré avant et après l'entraînement, et son inférence peut être contrôlée par rapport à des lignes de base après le déploiement des modèles sur des points de terminaison. Les métriques de biais de pré-entraînement sont conçues pour détecter et mesurer le biais dans les données brutes avant leur utilisation dans l'entraînement du modèle. Les métriques utilisées sont indépendantes du modèle, car elles ne dépendent d'aucune sortie du modèle. Différents concepts d'équité exigent cependant des mesures de biais distinctes. Amazon SageMaker Clarify fournit des métriques de biais pour quantifier divers critères d'équité.

Pour de plus amples informations sur les métriques de biais, veuillez consulter Fairness Measures for Machine Learning in Finance (Mesures d'équité pour le machine learning appliqué à la finance).

Termes utilisés par Amazon SageMaker Clarify en lien avec le biais et l'équité

SageMaker Clarify utilise la terminologie suivante en lien avec le biais et l'équité.

Fonctionnalité

Propriété ou caractéristique individuelle mesurable d'un phénomène observé, contenue dans une colonne pour les données tabulaires.

Étiquette

Fonction cible pour l'entraînement du modèle de machine learning. Appelée étiquette observée ou résultat observé.

Étiquette prédite

Étiquette telle que prédite par le modèle. Également appelée résultat prédit.

Exemple

Entité observée décrite par les valeurs de fonctions et la valeur d'étiquette, contenue dans une ligne pour les données tabulaires.

Ensemble de données

Une série d'échantillons.

Écart

Déséquilibre dans les données d'entraînement ou le comportement de prédiction du modèle entre différents groupes, telles que l'âge ou la tranche de revenu. Les biais peuvent résulter des données ou de l'algorithme utilisé pour entraîner votre modèle. Par exemple, si un modèle ML est principalement entraîné sur des données provenant d'individus d'âge moyen, il sera peut-être moins précis lorsque des prédictions concerneront des personnes plus jeunes et plus âgées.

Métrique de biais

Fonction qui renvoie des valeurs numériques indiquant le niveau d'un biais potentiel.

Rapport de biais

Série de métriques de biais pour un jeu de données ou la combinaison d'un jeu de données et d'un modèle.

Valeurs d'étiquette positives

Valeurs d'étiquettes favorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat positif.

Valeurs d'étiquette négatives

Valeurs d'étiquette défavorables à un groupe démographique observé dans un échantillon. En d'autres termes, désigne un échantillon comme ayant unrésultat négatif.

Variable de groupe

Colonne de catégorie du jeu de données utilisée pour former des sous-groupes pour la mesure de la disparité démographique conditionnelle (CDD). Requise uniquement pour cette métrique en lien avec le paradoxe de Simpson.

Facette

Colonne ou fonction contenant les attributs du biais mesuré.

Valeur de facette

Valeurs de fonction des attributs que le biais peut favoriser ou défavoriser.

Probabilité prédite

Probabilité, telle que prédite par le modèle, d'un échantillon ayant un résultat positif ou négatif.

Exemples de blocs-notes

Amazon SageMaker Clarify fournit l'exemple de bloc-notes suivant pour la détection de biais :

Ce bloc-notes a été vérifié comme s'exécutant dans Amazon SageMaker Studio seulement. Pour obtenir des instructions sur la façon d'ouvrir un bloc-notes dans Amazon SageMaker Studio, veuillez consulter Créer ou ouvrir un bloc-notes Amazon SageMaker Studio. Si vous êtes invité à choisir un noyau, choisissez Python 3 (Science des données).