Débogage et profilage des tâches d'entraînement avec Amazon SageMaker Debugger - Amazon SageMaker

Débogage et profilage des tâches d'entraînement avec Amazon SageMaker Debugger

Déboguez, profilez et surveillez les tâches d'entraînement en temps réel pour détecter des conditions non convergentes, optimiser l'utilisation des ressources en éliminant les goulets d'étranglement, réduire la durée d'entraînement et diminuer les coûts de vos modèles de machine learning à l'aide d'Amazon SageMaker Debugger.

Fonctions d'Amazon SageMaker Debugger

Une tâche d'entraînement de machine learning (ML) peut présenter des problèmes tels que des goulets d'étranglement, des surajustements, la saturation des fonctions d'activation et la disparition des gradients, qui peuvent compromettre les performances du modèle.

SageMaker Debugger profile et débogue les tâches d'entraînement pour aider à résoudre ces problèmes et à améliorer l'utilisation et les performances des ressources de calcul de votre modèle de ML. Debugger propose des outils permettant d'envoyer des alertes lorsque des anomalies d'entraînement sont détectées, de prendre des mesures contre les problèmes et d'en identifier la cause racine en visualisant les métriques et les tenseurs collectés.

SageMaker Debugger prend en charge les frameworks Apache MXNet, PyTorch, TensorFlow et XGBoost. Pour plus d'informations sur les frameworks et les versions disponibles prises en charge par SageMaker Debugger, consultez Cadres et algorithmes pris en charge.


                Présentation du fonctionnement d'Amazon SageMaker Debugger.

Voici le flux de travail à haut niveau de Debugger :

  1. Modifiez votre script d'entraînement à l'aide du kit SDK Python pour sagemaker-debugger, si nécessaire.

  2. Configurez une tâche d'entraînement SageMaker avec SageMaker Debugger.

  3. Démarrez une tâche d'entraînement et contrôlez les problèmes d'entraînement en temps réel.

  4. Recevez des alertes et prenez des mesures rapides contre les problèmes d'entraînement.

  5. Recevez des rapports d'entraînement, des suggestions pour résoudre les problèmes et des informations sur vos tâches d'entraînement.

  6. Examinez l'analyse approfondie des problèmes d'entraînement et des goulets d'étranglement.

  7. Corrigez les problèmes en tenant compte des suggestions fournies par Debugger, et répétez les étapes 1 à 5 pour optimiser votre modèle jusqu'à atteindre la précision souhaitée.

Le Guide du développeur SageMaker Debugger vous guide à travers les rubriques suivantes.