Contrôler la qualité des données - Amazon SageMaker

Contrôler la qualité des données

La surveillance de la qualité des données contrôle automatiquement les modèles de machine learning (ML) en production et vous avertit en cas de problèmes liés à la qualité des données. Les modèles ML en production doivent faire des prédictions par rapport aux données concrètes qui ne sont pas soigneusement organisées, comme la plupart des ensembles de données pour l'entraînement. Si la nature statistique des données reçues par votre modèle en production diffère de la nature des données de référence sur lesquelles il a été entraîné, le modèle commence à produire des prédictions moins précises. Amazon SageMaker Model Monitor utilise des règles pour détecter les écarts dans vos modèles et vous en avertit le cas échéant. Pour contrôler la qualité des données, procédez comme suit :

  • Activez la capture de données. Les entrées et sorties d'inférence sont capturées en temps réel à partir d'un point de terminaison d'inférence et les données sont stockées dans Amazon S3. Pour plus d'informations, consultez Capture des données.

  • Créez une tâche de référence. Dans cette étape, vous exécutez une tâche de référence qui analyse le jeu de données d'entrée que vous fournissez. La tâche calcule les contraintes et les statistiques du schéma de référence pour chaque fonction à l'aide de Deequ, une bibliothèque open source créée sur Apache Spark et utilisée pour mesurer la qualité des données dans les jeux de données volumineux. Pour plus d'informations, consultez Création d'une référence.

  • Définissez et planifiez des tâches de surveillance de la qualité des données. Pour plus d'informations, consultez Planification des tâches de surveillance.

  • Affichez les métriques de qualité des données. Pour plus d'informations, consultez Schéma des statistiques (fichier statistics.json).

  • Intégrez la surveillance de la qualité des données avec Amazon CloudWatch. Pour plus d'informations, consultez Métriques CloudWatch.

  • Interprétez les résultats d'une tâche de surveillance. Pour plus d'informations, consultez Interprétation des résultats.

  • Utilisez SageMaker Studio pour activer la surveillance de la qualité des données et afficher les résultats. Pour plus d'informations, consultez Visualisez les résultats dans Amazon SageMaker Studio.

Note

Amazon SageMaker Model Monitor ne prend actuellement en charge que les données tabulaires.