Attributions de fonctions utilisant des valeurs de Shapley - Amazon SageMaker

Attributions de fonctions utilisant des valeurs de Shapley

SageMaker Clarify fournit des attributions de fonctions basées sur le concept de valeur de Shapley. Vous pouvez utiliser les valeurs de Shapley pour déterminer la contribution apportée par chaque fonction aux prévisions du modèle. Ces attributions peuvent être fournies pour des prédictions spécifiques, et globalement pour le modèle tout entier. Par exemple, si vous avez utilisé un modèle ML pour les admissions à l'université, les explications peuvent aider à déterminer si la fonction qui a le plus influé sur les prédictions du modèle était le score GPA ou SAT. Ensuite, vous pouvez déterminer à quel point chaque fonction a participé à la détermination de la décision d'admettre ou non un étudiant.

SageMaker Clarify a emprunté le concept de valeurs de Shapley à la théorie des jeux et l'a déployé dans un contexte de machine learning. La valeur de Shapley fournit un moyen de quantifier la contribution de chaque joueur à un jeu, et donc le moyen de distribuer le gain total généré par un jeu à ses joueurs en fonction de leur contribution respective. Dans ce contexte de machine learning, pour SageMaker Clarify, la prédiction du modèle sur une instance donnée représente le jeu et les fonctions incluses dans le modèle les joueurs. Dans une première approximation, vous pouvez être tenté de déterminer la contribution ou l'effet marginal de chaque fonction en quantifiant le résultat, soit de l'abandon de cette fonction pour le modèle, soit de l'abandon de toutes les autres fonctions pour le modèle. Cette approche ne tient toutefois pas compte du fait que les fonctions incluses dans un modèle sont souvent dépendantes les unes des autres. Par exemple, si deux fonctions sont fortement corrélées, en abandonner une peut ne pas affecter significativement la prédiction du modèle.

Afin de traiter ces dépendances potentielles, la valeur de Shapley a besoin que le résultat de chaque combinaison (ou coalition) possible de fonctions soit pris en compte pour déterminer l'importance de chaque fonction. Dans le cas de d fonctions, il existe 2d combinaisons de fonctions possibles, qui correspondent chacune à un modèle potentiel. Afin de déterminer l'attribution d'une fonction donnée f, vous devez considérer la contribution marginale consistant à inclure f dans toutes les combinaisons de fonctions (et les modèles associés) qui ne contiennent pas f, et d'en faire la moyenne. Il peut être démontré que la valeur de Shapley est la seule façon d'attribuer la contribution ou l'importance de chaque fonction satisfaisant certaines propriétés souhaitables. En particulier, la somme des valeurs de Shapley de chaque fonction correspond à la différence entre les prédictions du modèle et un modèle fictif sans fonctions. Cependant, même pour des valeurs raisonnables de d, par exemple 50 fonctions, il est prohibitif et peu pratique en termes de calcul d'entraîner 2d modèles possibles. Par conséquent, SageMaker Clarify doit utiliser diverses techniques d'approximation. Pour cela, SageMaker Clarify utilise la méthode SHAP (SHapley Additive exPlanations), qui intègre ce genre d'approximations et propose une mise en œuvre évolutive et efficace de l'algorithme à noyau SHAP grâce à des optimisations supplémentaires.

Pour de plus amples informations sur les valeurs de Shapley, veuillez consulter A Unified Approach to Interpreting Model Predictions (Vers une approche unifiée pour l'interprétation des prédictions des modèles).