Tableaux de bord SageMaker HyperPod d'observabilité Amazon - Amazon SageMaker AI

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Tableaux de bord SageMaker HyperPod d'observabilité Amazon

Cette rubrique explique comment consulter les tableaux de bord de métriques pour vos clusters Amazon SageMaker HyperPod (SageMaker HyperPod) et comment ajouter de nouveaux utilisateurs à un tableau de bord. La rubrique décrit également les différents types de tableaux de bord.

Accès aux tableaux de bord

Pour consulter les statistiques de votre SageMaker HyperPod cluster dans Amazon Managed Grafana, effectuez les étapes suivantes :

  1. Ouvrez la console Amazon SageMaker AI à l'adresse https://console.aws.amazon.com/sagemaker/.

  2. Accédez à la page de détails de votre cluster.

  3. Dans l'onglet Tableau de bord, recherchez la section HyperPod Observabilité et choisissez Ouvrir le tableau de bord dans Grafana.

Ajouter de nouveaux utilisateurs à un espace de travail Grafana géré par Amazon

Pour plus d'informations sur la façon d'ajouter des utilisateurs à un espace de travail Amazon Managed Grafana, consultez la section Utiliser AWS IAM Identity Center avec votre espace de travail Amazon Managed Grafana dans le guide de l'utilisateur Amazon Managed Grafana.

Tableaux de bord d'observabilité

Le module complémentaire SageMaker HyperPod d'observabilité fournit cinq tableaux de bord interconnectés dans votre espace de travail Amazon Managed Grafana par défaut. Chaque tableau de bord fournit des informations détaillées sur les différentes ressources et tâches des clusters pour différents utilisateurs tels que les scientifiques des données, les ingénieurs en apprentissage automatique et les administrateurs.

Tableau de bord des tâches

Le tableau de bord des tâches fournit une surveillance et une visualisation complètes des mesures d'utilisation des ressources pour les SageMaker HyperPod tâches. Le panneau principal affiche un tableau détaillé regroupant l'utilisation des ressources par tâche parent, indiquant l'utilisation du processeur, du processeur graphique et de la mémoire entre les pods. Des graphiques chronologiques interactifs suivent l'utilisation du processeur, la consommation de mémoire système, les pourcentages d'utilisation du processeur graphique et l'utilisation de la mémoire du processeur graphique pour certains pods, vous permettant ainsi de suivre les tendances des performances au fil du temps. Le tableau de bord propose de puissantes fonctionnalités de filtrage grâce à des variables telles que le nom du cluster, l'espace de noms, le type de tâche et des modules spécifiques, ce qui facilite l'analyse de charges de travail spécifiques. Cette solution de surveillance est essentielle pour optimiser l'allocation des ressources et maintenir les performances des charges de travail de machine learning. SageMaker HyperPod

Tableau de bord de formation

Le tableau de bord de formation fournit une surveillance complète de l'état des tâches de formation, de la fiabilité et des indicateurs de gestion des pannes. Le tableau de bord présente des indicateurs de performance clés, notamment le nombre de tâches créées, les taux de réussite et les pourcentages de disponibilité, ainsi qu'un suivi détaillé des événements de redémarrage automatique et manuel. Il propose des visualisations détaillées des modèles de défaillances au moyen de diagrammes circulaires et de cartes thermiques qui ventilent les incidents par type et par latence de résolution, vous permettant ainsi d'identifier les problèmes récurrents et d'optimiser la fiabilité des tâches. L'interface inclut la surveillance en temps réel de paramètres critiques tels que les temps de restauration du système et les latences de détection des pannes, ce qui en fait un outil essentiel pour maintenir une haute disponibilité des charges de travail de formation. En outre, la fenêtre de suivi de 24 heures du tableau de bord fournit un contexte historique permettant d'analyser les tendances et les modèles de performance des tâches de formation, aidant ainsi les équipes à résoudre les problèmes potentiels de manière proactive avant qu'ils n'affectent les charges de travail de production.

Tableau de bord d'inférence

Le tableau de bord d'inférence fournit une surveillance complète des performances de déploiement des modèles et des indicateurs de santé dans de multiples dimensions. Il propose une vue d'ensemble détaillée des déploiements actifs, une surveillance en temps réel des taux de demandes, des pourcentages de réussite et des mesures de latence, ce qui vous permet de suivre les performances de service des modèles et d'identifier les goulots d'étranglement potentiels. Le tableau de bord comprend des panneaux spécialisés pour les mesures d'inférence générales et les mesures spécifiques aux jetons pour les modèles linguistiques, telles que le délai jusqu'au premier jeton (TTFT) et le débit des jetons, ce qui le rend particulièrement utile pour surveiller les déploiements de grands modèles linguistiques. En outre, il fournit des informations sur l'infrastructure grâce au suivi de l'allocation des pods et des nœuds, tout en offrant des fonctionnalités d'analyse détaillée des erreurs pour aider à maintenir la haute disponibilité et les performances des charges de travail d'inférence.

Tableau de bord du cluster

Le tableau de bord du cluster fournit une vue complète de l'état et des performances du cluster, offrant une visibilité en temps réel sur les ressources de calcul, de mémoire, de réseau et de stockage dans votre environnement Amazon SageMaker HyperPod (SageMaker HyperPod). En un coup d'œil, vous pouvez consulter des indicateurs critiques tels que le nombre total d'instances, l'utilisation du GPU, l'utilisation de la mémoire et les performances du réseau via une interface intuitive qui met automatiquement à jour les données toutes les quelques secondes. Le tableau de bord est organisé en sections logiques, en commençant par une vue d'ensemble de haut niveau du cluster qui affiche des indicateurs clés tels que le pourcentage d'instances saines et le nombre total de ressources, suivie de sections détaillées sur les performances du GPU, l'utilisation de la mémoire, les statistiques réseau et les métriques de stockage. Chaque section comporte des graphiques et des panneaux interactifs qui vous permettent d'accéder à des indicateurs spécifiques, avec des plages de temps personnalisables et des options de filtrage par nom de cluster, instance ou ID de GPU.

Tableau de bord du système de fichiers

Le tableau de bord du système de fichiers fournit une visibilité complète sur les performances et les indicateurs de santé du système de fichiers (Amazon FSx for Lustre). Le tableau de bord affiche les indicateurs de stockage essentiels, notamment la capacité disponible, les économies réalisées grâce à la déduplication, le taux d' CPU/memory utilisation, les IOPS du disque, le débit et les connexions client sur plusieurs visualisations. Il vous permet de surveiller à la fois les indicateurs de performance au niveau du système, tels que l'utilisation du processeur et de la mémoire, ainsi que les mesures spécifiques au stockage, telles que les read/write opérations et les modèles d'utilisation du disque. L'interface inclut des fonctionnalités de surveillance des alertes et des graphiques chronologiques détaillés pour suivre les tendances des performances au fil du temps, ce qui la rend précieuse pour la maintenance proactive et la planification des capacités. En outre, grâce à sa couverture complète des indicateurs, le tableau de bord permet d'identifier les goulots d'étranglement potentiels, d'optimiser les performances de stockage et de garantir le fonctionnement fiable du système de fichiers pour les charges de travail. SageMaker HyperPod