contrôler la dérive de biais pour les modèles en production

La surveillance des biais d'Amazon SageMaker Clarify aide les data scientists et les ingénieurs du ML à surveiller régulièrement les prédictions pour détecter les biais. Au fur et à mesure que le modèle est surveillé, les clients peuvent consulter des rapports et des graphiques exportables détaillant le biais dans SageMaker Studio et configurer des alertes dans Amazon CloudWatch pour recevoir des notifications en cas de détection d'un biais supérieur à un certain seuil. Un biais peut être introduit ou exacerbé dans les modèles ML déployés lorsque les données d'entraînement diffèrent des données vues par le modèle pendant le déploiement (c'est-à-dire les données actives). Ces types de changements dans la distribution des données actives peuvent être temporaires (dans le cas d'événements réels de courte durée, par exemple) ou permanents. Dans les deux cas, il peut être important de détecter ces changements. Par exemple, les sorties d'un modèle de prédiction des prix des maisons peuvent devenir biaisées si les taux hypothécaires utilisés pour entraîner le modèle ne correspondent pas aux taux hypothécaires réels du moment. Grâce aux fonctionnalités de détection de biais de Model Monitor, lorsqu'un biais est SageMaker détecté au-delà d'un certain seuil, il génère automatiquement des métriques que vous pouvez consulter dans SageMaker Studio et via les CloudWatch alertes Amazon.

En général, mesurer le biais uniquement pendant la train-and-deploy phase peut ne pas être suffisant. Il est possible qu'une fois le modèle déployé, la distribution des données vue par le modèle déployé (c'est-à-dire les données actives) diffère de celle du jeu de données d'entraînement. Avec le temps, ce changement peut introduire un biais dans un modèle. Le changement dans la distribution des données actives peut être temporaire (dans le cas d'un événement de courte durée, la période des fêtes par exemple) ou permanent. Dans les deux cas, il peut être important de détecter ces changements et de prendre éventuellement des mesures pour réduire le biais.

Pour détecter ces changements, SageMaker Clarify fournit des fonctionnalités permettant de surveiller en permanence les mesures de biais d'un modèle déployé et de déclencher des alertes automatisées si les mesures dépassent un seuil. Considérons par exemple la métrique de biais DPPL. Spécifiez une plage autorisée de valeurs A = (a_min,a_max), par exemple un intervalle de (-0,1, 0,1), à laquelle DPPL doit appartenir pendant le déploiement. Tout écart par rapport à cette plage doit déclencher une alerte de biais détecté. Avec SageMaker Clarify, vous pouvez effectuer ces contrôles à intervalles réguliers.

Par exemple, vous pouvez définir la fréquence des vérifications sur 2 jours. Cela signifie que SageMaker Clarify calcule la métrique DPPL sur les données collectées pendant une période de 2 jours. Dans cet exemple, D_win désigne les données traitées par le modèle sur la dernière fenêtre de 2 jours. Une alerte est émise si la valeur DPPL b_win calculée sur D_win est extérieure à une plage autorisée A. Cette approche pour vérifier si b_win se situe en dehors de A peut être bruyante. D_win peut comprendre très peu d'échantillons et ne pas représenter précisément la distribution des données actives. Le faible nombre d'échantillons signifie que la valeur d'estimation du biais b_win calculée sur D_win peut ne pas être très robuste. En fait, l'observation de valeurs très élevées (ou très faibles) de b_win peut être le simple fruit du hasard. Pour s'assurer que les conclusions tirées des données observées D _win sont statistiquement significatives, SageMaker Clarify utilise des intervalles de confiance. Plus précisément, il utilise la méthode de l'intervalle Bootstrap normal pour construire un intervalle C= (c_min, c_max) de telle sorte que SageMaker Clarify soit sûr que la vraie valeur de biais calculée sur l'ensemble des données en direct est contenue dans C avec une probabilité élevée. Désormais, si l'intervalle de confiance C chevauche la plage autorisée A, SageMaker Clarify l'interprète comme « il est probable que la valeur métrique de biais de la distribution des données en temps réel se situe dans la plage autorisée ». Si C et A sont disjoints, SageMaker Clarify est sûr que la métrique de biais ne se trouve pas dans A et déclenche une alerte.

Exemples de blocs-notes Model Monitor

Amazon SageMaker Clarify fournit l'exemple de carnet suivant qui montre comment capturer des données d'inférence pour un point de terminaison en temps réel, créer une base de référence pour surveiller l'évolution des biais et inspecter les résultats :

Surveillance de la dérive des biais et de la dérive d'attribution des fonctionnalités Amazon SageMaker Clarify — Utilisez Amazon SageMaker Model Monitor pour surveiller la dérive des biais et la dérive de l'attribution des fonctionnalités au fil du temps.

Il a été vérifié que ce bloc-notes fonctionne uniquement dans Amazon SageMaker Studio. Si vous avez besoin d'instructions pour ouvrir un bloc-notes dans Amazon SageMaker Studio, consultezCréation ou ouverture d'un bloc-notes Amazon SageMaker Studio Classic. Si vous êtes invité à choisir un noyau, choisissez Python 3 (Data Science). Les rubriques suivantes contiennent les éléments principaux des deux dernières étapes, ainsi que des exemples de code tirés de l'exemple de bloc-notes.

Rubriques

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Indicateurs de qualité des modèles et CloudWatch surveillance d'Amazon

Créer une référence de dérive de biais