Metriken für Schulungen Inferenzmetriken Metriken zur Aufgabensteuerung Metriken skalieren Cluster-Metriken Instance-Metriken Beschleunigte Berechnung von Metriken Netzwerk-Metriken Metriken des Dateisystems

SageMaker HyperPod Cluster-Metriken

Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Amazon Managed Grafana-Arbeitsbereich angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.

Metrik-Kategorie	Standardmäßig aktiviert?	Zusätzliche erweiterte Metriken verfügbar?	Verfügbar unter welchen Grafana-Dashboards?
Trainingsmetriken	Ja	Ja	Training
Inferenzmetriken	Ja	Nein	Inferenz
Metriken zur Aufgabensteuerung	Nein	Ja	Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen.
Metriken skalieren	Nein	Ja	Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen.
Cluster-Metriken	Ja	Ja	Cluster
Instance-Metriken	Ja	Ja	Cluster
Beschleunigte Berechnung von Metriken	Ja	Ja	Aufgabe, Cluster
Netzwerk-Metriken	Nein	Ja	Cluster
Dateisystem	Ja	Nein	Dateisystem

In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.

Metriken für Schulungen

Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
Kubeflow-Metriken	https://github.com/kubeflow/Trainer	Ja	Kubeflow
Kubernetes-Pod-Metriken	https://github.com/kubernetes/kube-state-metrics	Ja	Kubernetes
`training_uptime_percentage`	Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße	Nein	SageMaker HyperPod Schulung des Bedieners
`training_manual_recovery_count`	Gesamtzahl der für den Job durchgeführten manuellen Neustarts	Nein	SageMaker HyperPod Schulung des Bedieners
`training_manual_downtime_ms`	Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war	Nein	SageMaker HyperPod Schulung des Bedieners
`training_auto_recovery_count`	Gesamtzahl der automatischen Wiederherstellungen	Nein	SageMaker HyperPod geschulter Bediener
`training_auto_recovery_downtime`	Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung	Nein	SageMaker HyperPod Schulung des Bedieners
`training_fault_count`	Gesamtzahl der während des Trainings aufgetretenen Fehler	Nein	SageMaker HyperPod Schulung des Bedieners
`training_fault_type_count`	Verteilung der Fehler nach Typ	Nein	SageMaker HyperPod Schulung des Bedieners
`training_fault_recovery_time_ms`	Wiederherstellungszeit in Millisekunden für jeden Fehlertyp	Nein	SageMaker HyperPod Schulung des Bedieners
`training_time_ms`	Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde	Nein	SageMaker HyperPod Schulung des Bedieners

Inferenzmetriken

Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
`model_invocations_total`	Gesamtzahl der Aufrufanforderungen an das Modell	Ja	SageMaker HyperPod Inferenzoperator
`model_errors_total`	Gesamtzahl der Fehler beim Modellaufruf	Ja	SageMaker HyperPod Inferenzoperator
`model_concurrent_requests`	Aktive gleichzeitige Modellanfragen	Ja	SageMaker HyperPod Inferenzoperator
`model_latency_milliseconds`	Modellieren Sie die Latenz bei Aufrufen in Millisekunden	Ja	SageMaker HyperPod Inferenzoperator
`model_ttfb_milliseconds`	Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden	Ja	SageMaker HyperPod Inferenzoperator
TGI	Diese Kennzahlen können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README	Ja	Modellcontainer
LMI	Diese Kennzahlen können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README	Ja	Modellcontainer

Metriken zur Aufgabensteuerung

Verwenden Sie diese Metriken, um die Task-Governance und die Ressourcenzuweisung im SageMaker HyperPod Cluster zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
Warteschlange	Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics/.	Nein	Warteschlange

Metriken skalieren

Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
KEDA-Operator-Metriken	Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator.	Nein	Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)
KEDA-Webhook-Metriken	Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks.	Nein	Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)
KEDA Metrics Server-Metriken	Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server.	Nein	Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)

Cluster-Metriken

Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
Zustand des Clusters	Metriken für Kubernetes-API-Server. Weitere Informationen finden Sie unter https://kubernetes. io/docs/reference/instrumentation/metrics/.	Ja	Kubernetes
Kubestate	Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources.	Begrenzt	Kubernetes
KubeState Fortgeschritten	Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources.	Nein	Kubernetes

Instance-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
Knoten-Metriken	Siehe https://github.com/prometheus/node_exporter? tab= #. readme-ov-file enabled-by-default	Ja	Kubernetes
Container-Metriken	Von Cadvisor veröffentlichte Container-Metriken. Siehe https://github.com/google/cadvisor.	Ja	Kubernetes

Beschleunigte Berechnung von Metriken

Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
NVIDIA-GPU	DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp	Begrenzt	NVIDIA-GPU-Manager für Rechenzentren (DCGM)
NVIDIA-GPU (fortgeschritten)	DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp	Nein	NVIDIA-GPU-Manager für Rechenzentren (DCGM)
AWS Trainium	Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters	Nein	AWS Neuronenmonitor

Netzwerk-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand der Elastic Fabric Adapters (EFA) in Ihrem Cluster zu überwachen.

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
EFA	Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md.	Nein	Elastic Fabric Adapter

Metriken des Dateisystems

Name oder Typ der Metrik	Beschreibung	Standardmäßig aktiviert?	Metrische Quelle
Dateisystem	Amazon FSx for Lustre-Metriken von Amazon CloudWatch: Überwachung mit Amazon CloudWatch.	Ja	Amazon FSx für Lustre

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Benutzerdefinierte Metriken

Vorkonfigurierte Warnmeldungen