Explorez le tableau de bord Amazon SageMaker Debugger Insights - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Explorez le tableau de bord Amazon SageMaker Debugger Insights

Lorsque vous lancez une tâche de SageMaker formation, SageMaker Debugger commence à surveiller l'utilisation des ressources des instances Amazon EC2 par défaut. Vous pouvez suivre les taux d'utilisation du système, l'aperçu des statistiques et l'analyse des règles intégrée via le tableau de bord Insights. Ce guide vous présente le contenu du tableau de bord SageMaker Debugger Insights sous les onglets suivants : System Metrics and Rules.

Note

Le tableau de bord SageMaker Debugger Insights exécute une application Studio Classic sur une ml.m5.4xlarge instance pour traiter et afficher les visualisations. Chaque onglet SageMaker Debugger Insights exécute une session de noyau Studio Classic. Plusieurs sessions de noyau pour plusieurs onglets de SageMaker Debugger Insights s'exécutent sur une seule instance. Lorsque vous fermez un onglet SageMaker Debugger Insights, la session de noyau correspondante est également fermée. L'application Studio Classic reste active et entraîne des frais pour l'utilisation de l'ml.m5.4xlargeinstance. Pour plus d'informations sur les tarifs, consultez la page de SageMaker tarification d'Amazon.

Important

Lorsque vous avez terminé d'utiliser le tableau de bord SageMaker Debugger Insights, arrêtez l'ml.m5.4xlargeinstance pour éviter d'accumuler des frais. Pour plus d'informations sur la façon d'arrêter une instance, consultez Arrêtez l'instance Amazon SageMaker Debugger Insights.

Important

Dans les rapports, les diagrammes et les recommandations sont fournis à titre informatif et ne sont pas définitifs. Vous êtes tenu de réaliser votre propre évaluation indépendante des informations.

Métriques du système

Dans l'onglet Métriques du système, vous pouvez utiliser le tableau récapitulatif et les diagrammes de séries chronologiques pour comprendre l'utilisation des ressources.

Synthèse d'utilisation des ressources

Ce tableau récapitulatif présente les statistiques des métriques d'utilisation des ressources de calcul de tous les nœuds (appelées algo-n). Les métriques d'utilisation des ressources incluent l'utilisation totale des CPU, l'utilisation totale des GPU, l'utilisation totale de la mémoire CPU, l'utilisation totale de la mémoire GPU, le temps d'attente total des E/S et le réseau total en octets. Le tableau affiche les valeurs minimales et maximales, ainsi que les percentiles p99, p90 et p50.


                        Un tableau récapitulatif de l'utilisation des ressources

Graphiques chronologiques de l'utilisation des ressources

Utilisez les graphiques chronologiques pour obtenir plus de détails sur l'utilisation des ressources et identifier à quel intervalle de temps chaque instance affiche un taux d'utilisation indésirable, tel qu'une faible utilisation des GPU et les goulots d'étranglement des CPU susceptibles de provoquer le gaspillage d'une instance coûteuse.

L'interface utilisateur du contrôleur de graphiques chronologiques

La capture d'écran suivante montre le contrôleur de l'interface utilisateur pour ajuster les graphiques chronologiques.


                        Le contrôleur d'interface utilisateur dans le tableau de  SageMaker  bord Debugger Insights.
  • algo-1 : utilisez ce menu déroulant pour choisir le nœud que vous souhaitez examiner.

  • Zoom avant : utilisez ce bouton pour effectuer un zoom avant sur les graphiques chronologiques et afficher des intervalles de temps plus courts.

  • Zoom arrière : utilisez ce bouton pour effectuer un zoom arrière sur les graphiques chronologiques et afficher des intervalles de temps plus longs.

  • Panoramique vers la gauche : déplacez les graphiques chronologiques vers un intervalle de temps antérieur.

  • Panoramique vers la droite : déplacez les graphiques chronologiques vers un intervalle de temps futur.

  • Corriger le calendrier : utilisez cette case à cocher pour corriger ou rétablir les graphiques chronologiques afin d'afficher la vue complète, du premier point de données au dernier point de données.

Utilisation du CPU et temps d'attente des I/O

Les deux premiers graphiques montrent l'utilisation du CPU et le temps d'attente des I/O au fil du temps. Par défaut, les graphiques indiquent la moyenne du taux d'utilisation des CPU et le temps d'attente des I/O consacrés aux cœurs de CPU. Vous pouvez sélectionner un ou plusieurs cœurs CPU, en sélectionnant les étiquettes, pour les représenter graphiquement sur un seul graphique et comparer l'utilisation entre les cœurs. Vous pouvez parcourir et faire un zoom avant et arrière pour voir de plus près des intervalles de temps spécifiques.


                        debugger-studio-insight-mockup

Utilisation de GPU et de la mémoire GPU

Les graphiques suivants montrent l'utilisation du GPU et l'utilisation de la mémoire GPU au fil du temps. Par défaut, les graphiques indiquent le taux d'utilisation moyen dans le temps. Vous pouvez sélectionner les étiquettes des cœurs GPU pour voir leur taux d'utilisation. Si vous prenez la moyenne du taux d'utilisation sur le nombre total de cœurs GPU, vous avez l'utilisation moyenne de l'ensemble des ressources matérielles du système. En examinant le taux d'utilisation moyen, vous pouvez vérifier l'utilisation globale des ressources système d'une instance Amazon EC2. La figure suivante illustre un exemple de tâche d'entraînement sur une instance ml.p3.16xlarge avec 8 cœurs de GPU. Vous pouvez vérifier si la tâche d'entraînement est bien distribuée, utilisant pleinement tous les GPU.


                        debugger-studio-insight-mockup

Utilisation globale du système au fil du temps

La carte thermique suivante montre un exemple de l'utilisation totale du système d'une instance ml.p3.16xlarge dans le temps, projetée sur le diagramme bidimensionnel. Tous les cœurs de CPU et de GPU sont répertoriés dans l'axe vertical et l'utilisation est enregistrée au fil du temps avec une palette de couleurs, où les couleurs vives représentent une utilisation faible et les couleurs plus sombres une utilisation élevée. Consultez la barre de couleurs étiquetée sur le côté droit du graphique pour savoir quel niveau de couleur correspond à quel taux d'utilisation.


                        debugger-studio-insight-mockup

Règles

Utilisez l'onglet Règles pour trouver un résumé de l'analyse des règles de profilage sur votre tâche d'entraînement. Si la règle de profilage est activée avec la tâche d'entraînement, le texte apparaît surligné par un texte blanc uni. Les règles inactives sont grisées. Pour activer ces règles, suivez les instructions dans Configuration des règles de profilage intégrées gérées par Amazon SageMaker Debugger.


                    L'onglet Règles du tableau de bord  SageMaker  Debugger Insights