Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPodAmazon-Observability-Dashboards
In diesem Thema wird beschrieben, wie Sie Metrik-Dashboards für Ihre Amazon SageMaker HyperPod (SageMaker HyperPod) -Cluster anzeigen und wie Sie neue Benutzer zu einem Dashboard hinzufügen. In diesem Thema werden auch die verschiedenen Arten von Dashboards beschrieben.
Zugreifen auf Dashboards
Gehen Sie wie folgt vor, um die Metriken Ihres SageMaker HyperPod Clusters in Amazon Managed Grafana anzuzeigen:
Öffnen Sie die Amazon SageMaker AI-Konsole unter https://console.aws.amazon.com/sagemaker/
. -
Gehen Sie zur Detailseite Ihres Clusters.
-
Suchen Sie auf der Registerkarte Dashboard den Abschnitt HyperPod Observability und wählen Sie Dashboard in Grafana öffnen aus.
Hinzufügen neuer Benutzer zu einem Amazon Managed Grafana-Arbeitsbereich
Informationen zum Hinzufügen von Benutzern zu einem Amazon Managed Grafana-Workspace finden Sie unter Verwenden von AWS IAM Identity Center mit Ihrem Amazon Managed Grafana-Workspace im Amazon Managed Grafana-Benutzerhandbuch.
Dashboards zur Beobachtbarkeit
Das SageMaker HyperPod Observability-Add-on bietet fünf miteinander verbundene Dashboards in Ihrem standardmäßigen Amazon Managed Grafana-Arbeitsbereich. Jedes Dashboard bietet detaillierte Einblicke in verschiedene Ressourcen und Aufgaben in den Clustern für verschiedene Benutzer wie Datenwissenschaftler, Ingenieure für maschinelles Lernen und Administratoren.
Aufgaben-Dashboard
Das Task-Dashboard bietet eine umfassende Überwachung und Visualisierung der Kennzahlen zur Ressourcennutzung für SageMaker HyperPod Aufgaben. Im Hauptfenster wird eine detaillierte Tabelle angezeigt, in der die Ressourcennutzung nach übergeordneten Aufgaben gruppiert ist und die CPU-, GPU- und Speicherauslastung in den einzelnen Pods angezeigt wird. Interaktive Zeitreihendiagramme verfolgen die CPU-Auslastung, den Systemspeicherverbrauch, die prozentuale GPU-Auslastung und die GPU-Speichernutzung für ausgewählte Pods, sodass Sie Leistungstrends im Zeitverlauf überwachen können. Das Dashboard bietet leistungsstarke Filterfunktionen anhand von Variablen wie Clustername, Namespace, Aufgabentyp und spezifischen Pods, sodass Sie ganz einfach detaillierte Informationen zu bestimmten Workloads abrufen können. Diese Überwachungslösung ist unverzichtbar für die Optimierung der Ressourcenzuweisung und die Aufrechterhaltung der Leistung von Workloads für maschinelles Lernen. SageMaker HyperPod
Schulungs-Dashboard
Das Schulungs-Dashboard bietet eine umfassende Überwachung des Zustands, der Zuverlässigkeit und des Fehlermanagements von Trainingsaufgaben. Das Dashboard bietet wichtige Leistungsindikatoren wie die Anzahl der erstellten Aufgaben, Erfolgsquoten und die prozentuale Verfügbarkeit sowie eine detaillierte Nachverfolgung von automatischen und manuellen Neustartereignissen. Es bietet detaillierte Visualisierungen von Fehlermustern anhand von Kreisdiagrammen und Heatmaps, die Vorfälle nach Art und Latenz aufschlüsseln, sodass Sie wiederkehrende Probleme identifizieren und die Zuverlässigkeit Ihrer Aufgaben optimieren können. Die Benutzeroberfläche ermöglicht die Echtzeitüberwachung kritischer Kennzahlen wie Systemwiederherstellungszeiten und Latenzen bei der Fehlererkennung und ist somit ein unverzichtbares Tool für die Aufrechterhaltung einer hohen Verfügbarkeit von Schulungs-Workloads. Darüber hinaus bietet das 24-Stunden-Fenster des Dashboards einen historischen Kontext für die Analyse von Trends und Mustern bei der Ausführung von Trainingsaufgaben. So können Teams potenzielle Probleme proaktiv angehen, bevor sie sich auf die Produktionsauslastung auswirken.
Inferenz-Dashboard
Das Inferenz-Dashboard ermöglicht eine umfassende Überwachung der Leistungs- und Integritätskennzahlen für die Modellbereitstellung in mehreren Dimensionen. Es bietet einen detaillierten Überblick über aktive Implementierungen, eine Echtzeitüberwachung der Anforderungsraten, Erfolgsquoten und Latenzmetriken, sodass Sie die Leistung der Modellbereitstellung verfolgen und potenzielle Engpässe identifizieren können. Das Dashboard enthält spezielle Bereiche sowohl für allgemeine Inferenzmetriken als auch für tokenspezifische Metriken für Sprachmodelle, wie Time to First Token (TTFT) und Token-Durchsatz, was es besonders für die Überwachung umfangreicher Sprachmodellbereitstellungen nützlich macht. Darüber hinaus bietet es Einblicke in die Infrastruktur durch die Verfolgung der Pod- und Knotenzuweisung und bietet detaillierte Fehleranalysefunktionen, um die hohe Verfügbarkeit und Leistung von Inferenz-Workloads aufrechtzuerhalten.
Cluster-Dashboard
Das Cluster-Dashboard bietet einen umfassenden Überblick über den Zustand und die Leistung des Clusters und bietet Echtzeiteinblicke in die Rechen-, Speicher-, Netzwerk- und Speicherressourcen in Ihrer Amazon SageMaker HyperPod (SageMaker HyperPod) -Umgebung. Auf einen Blick können Sie wichtige Kennzahlen wie die Gesamtzahl der Instances, die GPU-Auslastung, die Speicherauslastung und die Netzwerkleistung über eine intuitive Benutzeroberfläche einsehen, die Daten automatisch alle paar Sekunden aktualisiert. Das Dashboard ist in logische Abschnitte gegliedert, beginnend mit einer allgemeinen Clusterübersicht, in der wichtige Kennzahlen wie der Prozentsatz intakter Instanzen und die Gesamtzahl der Ressourcen angezeigt werden, gefolgt von detaillierten Abschnitten zu GPU-Leistung, Speicherauslastung, Netzwerkstatistiken und Speichermetriken. Jeder Abschnitt enthält interaktive Grafiken und Panels, mit denen Sie spezifische Metriken detailliert untersuchen können. Dabei stehen Ihnen anpassbare Zeitbereiche und Filteroptionen nach Clustername, Instanz oder GPU-ID zur Verfügung.
Dateisystem-Dashboard
Das Dateisystem-Dashboard bietet einen umfassenden Einblick in die Leistungs- und Integritätskennzahlen des Dateisystems (Amazon FSx for Lustre). Das Dashboard zeigt wichtige Speichermetriken wie freie Kapazität, Einsparungen bei der Deduplizierung, CPU/memory Auslastung, Festplatten-IOPS, Durchsatz und Client-Verbindungen in mehreren Visualisierungen an. Es ermöglicht Ihnen, sowohl Leistungsindikatoren auf Systemebene wie CPU- und Speicherauslastung als auch speicherspezifische Kennzahlen wie Betriebsabläufe und Festplattenauslastungsmuster zu überwachen. read/write Die Benutzeroberfläche umfasst Funktionen zur Überwachung von Warnmeldungen und detaillierte Zeitreihendiagramme zur Verfolgung von Leistungstrends im Zeitverlauf, was sie für die proaktive Wartung und Kapazitätsplanung sehr nützlich macht. Darüber hinaus hilft das Dashboard durch seine umfassende Erfassung von Kennzahlen dabei, potenzielle Engpässe zu identifizieren, die Speicherleistung zu optimieren und einen zuverlässigen Dateisystembetrieb für Workloads sicherzustellen. SageMaker HyperPod