Contrôler la qualité des données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Contrôler la qualité des données

La surveillance de la qualité des données contrôle automatiquement les modèles de machine learning (ML) en production et vous avertit en cas de problèmes liés à la qualité des données. Les modèles ML en production doivent faire des prédictions par rapport aux données concrètes qui ne sont pas soigneusement organisées, comme la plupart des jeux de données pour l'entraînement. Si la nature statistique des données reçues par votre modèle en production diffère de la nature des données de référence sur lesquelles il a été entraîné, le modèle commence à produire des prédictions moins précises. Amazon SageMaker Model Monitor utilise des règles pour détecter la dérive des données et vous alerte lorsque cela se produit. Pour contrôler la qualité des données, procédez comme suit :

  • Activez la capture de données. Les entrées et sorties d'inférence sont capturées à partir d'un point de terminaison d'inférence en temps réel ou d'une tâche de transformation par lots et les données sont stockées dans Amazon S3. Pour de plus amples informations, veuillez consulter Capture des données.

  • Créez une tâche de référence. Dans cette étape, vous exécutez une tâche de référence qui analyse le jeu de données d'entrée que vous fournissez. La tâche calcule les contraintes et les statistiques du schéma de référence pour chaque fonction à l'aide de Deequ, une bibliothèque open source créée sur Apache Spark et utilisée pour mesurer la qualité des données dans les jeux de données volumineux. Pour de plus amples informations, veuillez consulter Création d'une référence.

  • Définissez et planifiez des tâches de surveillance de la qualité des données. Pour obtenir des informations spécifiques et des exemples de code sur les tâches de surveillance de la qualité des données, consultez Planification des tâches de surveillance de la qualité des données. Pour des informations générales sur les tâches de surveillance, consultez Planification des tâches de surveillance.

    • Utilisez le cas échéant des scripts de prétraitement et de post-traitement pour transformer les données issues de votre analyse de la qualité des données. Pour de plus amples informations, veuillez consulter Prétraitement et post-traitement.

  • Affichez les métriques de qualité des données. Pour de plus amples informations, veuillez consulter Schéma des statistiques (fichier statistics.json).

  • Intégrez la surveillance de la qualité des données à Amazon CloudWatch. Pour de plus amples informations, veuillez consulter CloudWatch Métriques.

  • Interprétez les résultats d'une tâche de surveillance. Pour de plus amples informations, veuillez consulter Interprétation des résultats.

  • Utilisez SageMaker Studio pour activer la surveillance de la qualité des données et visualiser les résultats si vous utilisez un point de terminaison en temps réel. Pour de plus amples informations, veuillez consulter Visualisez les résultats pour les points de terminaison en temps réel dans Amazon Studio SageMaker .

Note

Model Monitor calcule les mesures et les statistiques du modèle uniquement sur des données tabulaires. Par exemple, un modèle de classification d'images qui prend des images en tant qu'entrée et génère une étiquette basée sur ces images en sortie peut toujours être surveillé. Model Monitor serait capable de calculer des mesures et des statistiques pour la sortie, et non pour l'entrée.