Importance des variables du modèle - Amazon Fraud Detector

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Importance des variables du modèle

L'importance des variables du modèle est une fonctionnalité d'Amazon Fraud Detector qui classe les variables du modèle au sein d'une version du modèle. Chaque variable de modèle reçoit une valeur basée sur son importance relative par rapport aux performances globales de votre modèle. La variable de modèle ayant la valeur la plus élevée est plus importante pour le modèle que les autres variables de modèle du jeu de données pour cette version du modèle et est répertoriée en haut par défaut. De même, la variable de modèle présentant la valeur la plus faible est répertoriée en bas par défaut et est la moins importante par rapport aux autres variables du modèle. À l'aide des valeurs d'importance des variables du modèle, vous pouvez avoir un aperçu des entrées qui déterminent les performances de votre modèle.

Vous pouvez consulter les valeurs d'importance des variables du modèle pour votre version de modèle entraînée dans la console Amazon Fraud Detector ou à l'aide de l'DescribeModelVersionAPI.

L'importance des variables du modèle fournit l'ensemble de valeurs suivant pour chaque variable utilisée pour entraîner la version du modèle.

  • Type de variable : type de variable (par exemple, adresse IP ou e-mail). Pour plus d'informations, consultez Types de variables. Pour les modèles Account Takeover Insights (ATI), Amazon Fraud Detector fournit une valeur d'importance variable pour le type de variable brut et agrégé. Les types de variables bruts sont affectés aux variables que vous fournissez. Le type de variable agrégée est attribué à un ensemble de variables brutes qu'Amazon Fraud Detector a combinées pour calculer une valeur d'importance agrégée.

  • Nom de la variable : nom de la variable d'événement utilisée pour entraîner la version du modèle (par exempleip_address,email_address,are_creadentials_valid). Pour le type de variable agrégée, les noms de toutes les variables utilisées pour calculer la valeur d'importance de la variable agrégée sont répertoriés.

  • Valeur d'importance de la variable : nombre qui représente l'importance relative de la variable brute ou agrégée par rapport aux performances du modèle. Plage typique : 0 à 10

Dans la console Amazon Fraud Detector, les valeurs d'importance des variables du modèle sont affichées comme suit pour un modèle Online Fraud Insights (OFI) ou Transaction Fraud Insights (TFI). Un modèle ATI (Account Takeover Insight) fournira des valeurs d'importance des variables agrégées en plus des valeurs d'importance des variables brutes. Le graphique visuel permet de voir facilement l'importance relative entre les variables, la ligne pointillée verticale faisant référence à la valeur d'importance de la variable la mieux classée.

Modèle de tableau d'importance des variables.

Amazon Fraud Detector génère des valeurs d'importance variables pour chaque version du modèle Fraud Detector, sans frais supplémentaires.

Important

Les versions du modèle créées avant le 9 juillet 2021 n'ont pas de valeurs d'importance variables. Vous devez entraîner une nouvelle version de votre modèle pour générer les valeurs d'importance des variables du modèle.

Utilisation des valeurs d'importance des variables du modèle

Vous pouvez utiliser les valeurs d'importance des variables du modèle pour avoir un aperçu de ce qui fait augmenter ou diminuer les performances de votre modèle et des variables qui y contribuent le plus. Ensuite, modifiez votre modèle pour améliorer les performances globales.

Plus précisément, pour améliorer les performances de votre modèle, examinez les valeurs d'importance des variables par rapport à vos connaissances du domaine et corrigez les problèmes liés aux données d'entraînement. Par exemple, si l'identifiant de compte a été utilisé comme entrée dans le modèle et qu'il est répertorié en haut, examinez sa valeur d'importance variable. Si la valeur d'importance de la variable est nettement supérieure aux autres valeurs, votre modèle est peut-être trop adapté à un modèle de fraude spécifique (par exemple, tous les événements de fraude proviennent du même identifiant de compte). Cependant, il se peut également qu'il y ait une fuite d'étiquette si la variable dépend des étiquettes frauduleuses. Selon le résultat de votre analyse basée sur vos connaissances du domaine, vous souhaiterez peut-être supprimer la variable et vous entraîner avec un ensemble de données plus diversifié, ou conserver le modèle tel quel.

De même, jetez un œil aux variables classées en dernier. Si la valeur d'importance de la variable est nettement inférieure aux autres valeurs, cette variable du modèle peut ne pas avoir d'importance dans l'entraînement de votre modèle. Vous pouvez envisager de supprimer la variable pour entraîner une version de modèle plus simple. Si votre modèle comporte peu de variables, par exemple deux variables seulement, Amazon Fraud Detector fournit toujours les valeurs d'importance des variables et classe les variables. Cependant, les informations disponibles dans ce cas seront limitées.

Important
  1. Si vous remarquez l'absence de variables dans le tableau d'importance des variables du modèle, cela peut être dû à l'une des raisons suivantes. Pensez à modifier la variable dans votre jeu de données et à réentraîner votre modèle.

    • Le nombre de valeurs uniques pour la variable dans le jeu de données d'apprentissage est inférieur à 100.

    • Plus de 0,9 % des valeurs de la variable sont absentes de l'ensemble de données d'apprentissage.

  2. Vous devez entraîner une nouvelle version du modèle chaque fois que vous souhaitez ajuster les variables d'entrée de votre modèle.

Évaluation des valeurs d'importance des variables du modèle

Nous vous recommandons de prendre en compte les points suivants lorsque vous évaluez les valeurs d'importance des variables du modèle :

  • Les valeurs d'importance des variables doivent toujours être évaluées en combinaison avec les connaissances du domaine.

  • Examinez la valeur d'importance d'une variable par rapport à la valeur d'importance variable des autres variables dans la version du modèle. Ne considérez pas la valeur d'importance d'une variable pour une seule variable indépendamment.

  • Comparez les valeurs d'importance des variables au sein de la même version du modèle. Ne comparez pas les valeurs d'importance des mêmes variables entre les versions du modèle, car la valeur d'importance d'une variable dans une version de modèle peut être différente de la valeur de la même variable dans une version de modèle différente. Si vous utilisez les mêmes variables et le même jeu de données pour entraîner différentes versions du modèle, cela ne génère pas nécessairement les mêmes valeurs d'importance des variables.

Affichage du classement par importance des variables du modèle

Une fois la formation du modèle terminée, vous pouvez consulter le classement par importance des variables du modèle de votre version entraînée dans la console Amazon Fraud Detector ou en utilisant l'DescribeModelVersionAPI.

Pour consulter le classement d'importance des variables du modèle à l'aide de la console,
  1. Ouvrez la AWS console et connectez-vous à votre compte. Accédez à Amazon Fraud Detector.

  2. Dans le volet de navigation de gauche, choisissez Models (Modèles).

  3. Choisissez votre modèle, puis la version de votre modèle.

  4. Assurez-vous que l'onglet Aperçu est sélectionné.

  5. Faites défiler la page vers le bas pour afficher le volet Importance des variables du modèle.

Comprendre comment la valeur d'importance de la variable du modèle est calculée

À la fin de la formation sur chaque version de modèle, Amazon Fraud Detector génère automatiquement des valeurs d'importance des variables du modèle et des indicateurs de performance du modèle. Pour cela, Amazon Fraud Detector utilise Shapley Additive Explanations (SHAP). Le SHAP est essentiellement la contribution moyenne attendue d'une variable de modèle une fois que toutes les combinaisons possibles de toutes les variables du modèle ont été prises en compte.

SHAP affecte d'abord la contribution de chaque variable du modèle pour la prédiction d'un événement. Il agrège ensuite ces prédictions pour créer un classement des variables au niveau du modèle. Pour attribuer les contributions de chaque variable de modèle à une prédiction, SHAP prend en compte les différences entre les sorties du modèle parmi toutes les combinaisons de variables possibles. En incluant toutes les possibilités d'inclusion ou de suppression d'un ensemble spécifique de variables pour générer une sortie de modèle, SHAP peut accéder avec précision à l'importance de chaque variable de modèle. Cela est particulièrement important lorsque les variables du modèle sont fortement corrélées entre elles.

Dans la plupart des cas, les modèles ML ne vous permettent pas de supprimer des variables. Vous pouvez à la place remplacer une variable supprimée ou manquante dans le modèle par les valeurs de variable correspondantes issues d'une ou de plusieurs lignes de base (par exemple, des événements non liés à une fraude). Choisir des instances de référence appropriées peut s'avérer difficile, mais Amazon Fraud Detector vous facilite la tâche en définissant cette base de référence comme la moyenne de la population pour vous.