Amazon SageMaker Debugger
Déboguez, contrôlez et profilez les tâches d'entraînement en temps réel, détectez les conditions non convergentes, optimisez l'utilisation des ressources en éliminant les goulets d'étranglement, réduisez la durée d'entraînement et diminuez les coûts de vos modèles de machine learning à l'aide d'Amazon SageMaker Debugger.
Fonctions d'Amazon SageMaker Debugger
Une tâche d'entraînement de machine learning (ML) peut présenter des problèmes tels que des goulets d'étranglement, des surajustements, la saturation des fonctions d'activation et la disparition des gradients, qui peuvent compromettre les performances du modèle.
SageMaker Debugger profile et débogue les tâches d'entraînement pour aider à résoudre ces problèmes et à améliorer l'utilisation et les performances des ressources de calcul de votre modèle de ML. Debugger propose des outils permettant d'envoyer des alertes lorsque des anomalies d'entraînement sont détectées, de prendre des mesures contre les problèmes et d'en identifier la cause racine en visualisant les métriques et les tenseurs collectés.
SageMaker Debugger prend en charge Apache MXNet, TensorFlow, PyTorch et XGBoost. Pour en savoir plus sur les cadres et les versions disponibles, consultez Cadres et algorithmes pris en charge.

Voici le flux de travail à haut niveau de Debugger :
-
Configurez une tâche d'entraînement SageMaker avec Debugger.
-
Configuration à l'aide de l'API
Estimator
(pour le kit SDK Python) SageMaker. -
Configuration à l'aide de la requête
CreateTrainingJob
SageMaker (pour Boto3 ou la CLI). -
Configuration de conteneurs d'entraînement personnalisés avec Debugger.
-
-
Démarrez une tâche d'entraînement et contrôlez les problèmes d'entraînement en temps réel.
-
Recevez des alertes et prenez des mesures rapides contre les problèmes d'entraînement.
-
Recevez des textes et des e-mails et arrêtez les tâches d'entraînement lorsque des problèmes d'entraînement sont détectés à l'aide des Actions intégrées Debugger pour les règles.
-
Configurez vos propres actions à l'aide d'Amazon CloudWatch Events et d'AWS Lambda.
-
-
Recevez des rapports d'entraînement, des suggestions pour résoudre les problèmes et des informations sur vos tâches d'entraînement.
-
Examinez l'analyse approfondie des problèmes d'entraînement et des goulets d'étranglement.
-
Pour en savoir plus sur le profilage des tâches d'entraînement, consultez Analyser les données à l'aide de la bibliothèque client SMDebug.
-
Pour en savoir plus sur les paramètres des modèles de débogage, consultez Visualiser les tenseurs de sortie Debugger dans TensorBoard.
-
-
Corrigez les problèmes en tenant compte des suggestions fournies par Debugger, et répétez les étapes 1 à 5 pour optimiser votre modèle jusqu'à atteindre la précision souhaitée.
Le Guide du développeur SageMaker Debugger vous guide à travers les rubriques suivantes.
Rubriques
- Cadres et algorithmes pris en charge
- Architecture Debugger Amazon SageMaker
- Démarrer avec les didacticiels Debugger
- Configurer Debugger à l'aide du kit SDK Python Amazon SageMaker
- Configurer Debugger à l'aide de l'API Amazon SageMaker
- Liste des règles intégrées Debugger
- Créer des règles personnalisées Debugger pour l'analyse des tâches d'entraînement
- Utiliser Debugger avec des conteneurs d'entraînement personnalisés
- Action sur les règles Amazon SageMaker Debugger
- Amazon SageMaker Debugger dans Amazon SageMaker Studio
- Rapports interactifs de SageMaker Debugger
- Analyser les données à l'aide de la bibliothèque client SMDebug
- Visualiser les tenseurs de sortie Amazon SageMaker Debugger dans TensorBoard
- Bonnes pratiques relatives à Amazon SageMaker Debugger
- Rubriques avancées et documentation de référence d'Amazon SageMaker Debugger