Validation d'un modèle de machine learning - Amazon SageMaker

Validation d'un modèle de machine learning

Après avoir entraîné un modèle, évaluez-le pour déterminer si ses performances et sa précision vous permettent d'atteindre vos objectifs métier. Vous pouvez générer plusieurs modèles à l'aide de différentes méthodes et évaluer chacun d'eux. Par exemple, vous pouvez appliquer des règles métier différentes pour chaque modèle, puis appliquer diverses mesures pour déterminer l'adéquation de chaque modèle. Vous pouvez déterminer si votre modèle doit être plus sensible que spécifique (ou inversement).

Vous pouvez évaluer votre modèle à l'aide de données historiques (hors connexion) ou de données en temps réel :

  • Tests hors ligne : utilisez des données historiques, et non en temps réel, pour envoyer des demandes au modèle pour des inférences.

    Déployez votre modèle entraîné sur un point de terminaison alpha, et utilisez les données historiques pour lui envoyer des demandes d'inférence. Pour envoyer les demandes, utilisez un bloc-notes Jupyter dans votre instance de bloc-notes Amazon SageMaker et le AWS SDK for Python (Boto) ou la bibliothèque Python de haut niveau fournis par SageMaker.

  • Tests en ligne avec des données en direct : SageMaker prend en charge les tests A/B pour les modèles en production à l'aide de variantes de production. Les variantes de production sont des modèles qui utilisent le même code d'inférence et sont déployés sur le même point de terminaison SageMaker. Vous configurez les variantes de production afin qu'une petite partie du trafic en temps réel soit acheminé vers le modèle que vous souhaitez valider. Par exemple, vous pouvez choisir d'envoyer 10 % du trafic vers une variante de modèle pour évaluation. Lorsque vous êtes satisfait des performances du modèle, vous pouvez acheminer 100 % du trafic vers le modèle mis à jour. Pour obtenir un exemple de test de modèles en production, veuillez consulter Mise à jour de modèles en production en toute sécurité.

Pour plus d'informations, consultez les articles et les livres sur la façon d'évaluer les modèles, par exemple, Évaluation des modèles de machine learning.

Les options pour l'évaluation de modèle hors connexion sont les suivantes :

  • Validation à l'aide d'un jeu de données d'exclusion : les professionnels du machine learning mettent souvent de côté une partie des données sous la forme d'un « jeu de données d'exclusion ». Ils n'utilisent pas ces données pour l'entraînement du modèle.

    Avec cette approche, vous pouvez évaluer combien votre modèle fournit d'inférences sur les données d'exclusion. Vous pouvez ensuite évaluer l'efficacité avec laquelle le modèle généralise ce qu'il a appris pendant l'entraînement initial, par opposition à l'utilisation d'une mémoire de modèles. Cette approche de la validation vous donne une idée de la fréquence à laquelle le modèle est en mesure de déduire la réponse correcte.

     

    D'une certaine manière, cette approche est similaire à un enseignement pour des élèves de niveau élémentaire. Vous commencez par leur donner un ensemble d'exemples à apprendre, puis vous testez leur capacité à généraliser à partir de cet apprentissage. Par des tests et des devoirs personnels, vous posez des problèmes qui ne figuraient pas dans l'apprentissage initial, et déterminez s'ils sont capables de généraliser de manière efficace. Les étudiants avec une mémoire parfaite peuvent mémoriser les problèmes, plutôt que d'apprendre les règles.

     

    En général, l'ensemble de données d'exclusion représente 20 à 30 % des données d'entraînement.

     

  • Validation k-fold : dans cette approche de validation, vous divisez l'exemple de jeu de données en k parties. Vous traitez chacune de ces parties en tant qu'ensemble de données d'exclusion pour k exécutions d'entraînement, et utilisez les k-1 autres parties comme ensemble d'entraînement pour cette exécution. Vous produisez k modèles à l'aide d'un processus similaire, et regroupez les modèles pour générer votre modèle final. La valeur k est généralement de l'ordre de 5 à 10.