Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Jeu de données synthétique
SageMaker Clarify utilise l'algorithme Kernel SHAP. À partir d'un enregistrement (également appelé échantillon ou instance) et de la configuration SHAP, l'explicateur génère d'abord un ensemble de données synthétique. SageMaker Clarify interroge ensuite le conteneur du modèle pour obtenir les prédictions de l'ensemble de données, puis calcule et renvoie les attributions des entités. La taille du jeu de données synthétique affecte le temps d'exécution de l'outil d'explication Clarify. Les grands jeux de données synthétiques mettent plus de temps à obtenir les prédictions du modèle que les plus petits.
La taille du jeu de données synthétique est déterminée par la formule suivante :
Synthetic dataset size = SHAP baseline size * n_samples
La taille de référence SHAP est égale au nombre d'enregistrements contenus dans les données de référence SHAP. Ces informations sont extraites de ShapBaselineConfig
.
La taille de n_samples
est définie par le paramètre NumberOfSamples
dans la configuration de l'outil d'explication et par le nombre de fonctionnalités. Si le nombre de fonctionnalités est égal à n_features
, alors n_samples
est calculé de la manière suivante :
n_samples = MIN(NumberOfSamples, 2^n_features - 2)
L'exemple suivant illustre n_samples
si NumberOfSamples
n'est pas fourni.
n_samples = MIN(2*n_features + 2^11, 2^n_features - 2)
Par exemple, un enregistrement tabulaire comportant 10 fonctionnalités a une taille de référence SHAP de 1. Si NumberOfSamples
n'est pas fourni, le jeu de données synthétique contient 1 022 enregistrements. Si l'enregistrement comporte 20 fonctionnalités, le jeu de données synthétique contient 2 088 enregistrements.
Pour les problèmes de NLP, n_features
est égal au nombre de fonctionnalités non textuelles auquel est ajouté le nombre d'unités de texte.
Note
L'API InvokeEndpoint
comporte un délai d'expiration de la demande. Si le jeu de données synthétique est trop volumineux, il se peut que l'outil d'explication ne soit pas en mesure de terminer le calcul avant la fin de ce délai. Si nécessaire, utilisez les informations précédentes pour comprendre et réduire la taille de la référence SHAP et NumberOfSamples
. Si votre conteneur de modèle est configuré pour traiter les demandes par lots, vous pouvez également ajuster la valeur de MaxRecordCount
.