Bases de référence SHAP pour l'explicabilité - Amazon SageMaker

Bases de référence SHAP pour l'explicabilité

Comme nous l'avons vu précédemment, les explications sont généralement contrastives (c'est-à-dire qu'elles tiennent compte des écarts par rapport à une base de référence). Par conséquent, pour la même prévision de modèle, vous pouvez obtenir des explications différentes selon les bases de référence retenues, ce qui rend le choix d'une base de référence crucial. Dans un contexte ML, la base de référence correspond à une instance hypothétique qui peut être non informative ou informative. Pendant le calcul des valeurs de Shapley, SageMaker Clarify génère plusieurs nouvelles instances entre la base de référence et l'instance donnée, l'absence d'une fonction étant modélisée en définissant la valeur de la fonction sur celle de la base de référence, et la présence d'une fonction étant modélisée en définissant la valeur de la fonction sur celle de l'instance donnée. De cette façon, l'absence de toutes les fonctions correspond à la base de référence et la présence de toutes les fonctions correspond à l'instance donnée.

Comment choisir de bonnes bases de référence ? Il est souvent souhaitable de sélectionner une base de référence avec un contenu informatif très faible. Par exemple, vous pouvez créer une instance moyenne à partir du jeu de données d'entraînement en prenant la médiane ou la moyenne des fonctions numériques et le mode de fonctions catégoriques. Dans l'exemple des admissions à l'université, vous pouvez vouloir expliquer pourquoi un candidat particulier a été accepté par rapport aux acceptations de référence basées sur un candidat moyen. Si elle n'est pas fournie, une ligne de base est calculée automatiquement par SageMaker Clarify à l'aide des k-moyennes ou des prototypes k dans le jeu de données d'entrée.

Vous pouvez également choisir de générer des explications relatives à des bases de référence informatives. Dans le scénario des admissions à l'université, vous pouvez vouloir expliquer pourquoi un candidat particulier a été rejeté par rapport à d'autres candidats issus de contextes démographiques similaires. Dans ce cas, vous pouvez choisir une base de référence qui représente les candidats d'intérêt, à savoir ceux d'un contexte démographique similaire. Vous pouvez alors utiliser des bases de référence informatives pour concentrer l'analyse sur les aspects spécifiques d'une prédiction de modèle particulière. Vous pouvez isoler les fonctions à des fins d'évaluation en définissant des attributs démographiques et d'autres fonctions sur lesquelles vous ne pouvez pas agir, sur la même valeur que dans l'instance donnée.