Attributions de fonctions utilisant des valeurs de Shapley - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Attributions de fonctions utilisant des valeurs de Shapley

SageMaker Clarify fournit des attributions de fonctionnalités basées sur le concept de valeur de Shapley. Vous pouvez utiliser les valeurs de Shapley pour déterminer la contribution apportée par chaque fonction aux prévisions du modèle. Ces attributions peuvent être fournies pour des prédictions spécifiques, et globalement pour le modèle tout entier. Par exemple, si vous avez utilisé un modèle ML pour les admissions à l'université, les explications peuvent aider à déterminer si la fonction qui a le plus influé sur les prédictions du modèle était le score GPA ou SAT. Ensuite, vous pouvez déterminer à quel point chaque fonction a participé à la détermination de la décision d'admettre ou non un étudiant.

SageMaker Clarify a repris le concept des valeurs de Shapley de la théorie des jeux et l'a déployé dans un contexte d'apprentissage automatique. La valeur de Shapley fournit un moyen de quantifier la contribution de chaque joueur à un jeu, et donc le moyen de distribuer le gain total généré par un jeu à ses joueurs en fonction de leur contribution respective. Dans ce contexte d'apprentissage automatique, SageMaker Clarify considère la prédiction du modèle sur une instance donnée comme le jeu et les fonctionnalités incluses dans le modèle comme les joueurs. Dans une première approximation, vous pouvez être tenté de déterminer la contribution ou l'effet marginal de chaque fonction en quantifiant le résultat, soit de l'abandon de cette fonction pour le modèle, soit de l'abandon de toutes les autres fonctions pour le modèle. Cette approche ne tient toutefois pas compte du fait que les fonctions incluses dans un modèle sont souvent dépendantes les unes des autres. Par exemple, si deux fonctions sont fortement corrélées, en abandonner une peut ne pas affecter significativement la prédiction du modèle.

Afin de traiter ces dépendances potentielles, la valeur de Shapley a besoin que le résultat de chaque combinaison (ou coalition) possible de fonctions soit pris en compte pour déterminer l'importance de chaque fonction. Dans le cas de d fonctions, il existe 2d combinaisons de fonctions possibles, qui correspondent chacune à un modèle potentiel. Afin de déterminer l'attribution d'une fonction donnée f, vous devez considérer la contribution marginale consistant à inclure f dans toutes les combinaisons de fonctions (et les modèles associés) qui ne contiennent pas f, et d'en faire la moyenne. Il peut être démontré que la valeur de Shapley est la seule façon d'attribuer la contribution ou l'importance de chaque fonction satisfaisant certaines propriétés souhaitables. En particulier, la somme des valeurs de Shapley de chaque fonction correspond à la différence entre les prédictions du modèle et un modèle fictif sans fonctions. Cependant, même pour des valeurs raisonnables de d, par exemple 50 fonctions, il est prohibitif et peu pratique en termes de calcul d'entraîner 2d modèles possibles. Par conséquent, SageMaker Clarify doit utiliser diverses techniques d'approximation. À cette fin, SageMaker Clarify utilise Shapley Additive Explanations (SHAP), qui intègre de telles approximations et a conçu une implémentation évolutive et efficace de l'algorithme Kernel SHAP grâce à des optimisations supplémentaires.

Pour de plus amples informations sur les valeurs de Shapley, veuillez consulter A Unified Approach to Interpreting Model Predictions (Vers une approche unifiée pour l'interprétation des prédictions des modèles).