SageMaker HyperPod Cluster-Metriken - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

SageMaker HyperPod Cluster-Metriken

Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Amazon Managed Grafana-Arbeitsbereich angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.

Metrik-Kategorie Standardmäßig aktiviert? Zusätzliche erweiterte Metriken verfügbar? Verfügbar unter welchen Grafana-Dashboards?
Trainingsmetriken Ja Ja Training
Inferenzmetriken Ja Nein Inferenz
Metriken zur Aufgabensteuerung Nein Ja Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen.
Metriken skalieren Nein Ja Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen.
Cluster-Metriken Ja Ja Cluster
Instance-Metriken Ja Ja Cluster
Beschleunigte Berechnung von Metriken Ja Ja Aufgabe, Cluster
Netzwerk-Metriken Nein Ja Cluster
Dateisystem Ja Nein Dateisystem

In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.

Metriken für Schulungen

Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
Kubeflow-Metriken https://github.com/kubeflow/Trainer Ja Kubeflow
Kubernetes-Pod-Metriken https://github.com/kubernetes/kube-state-metrics Ja Kubernetes
training_uptime_percentage Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße Nein SageMaker HyperPod Schulung des Bedieners
training_manual_recovery_count Gesamtzahl der für den Job durchgeführten manuellen Neustarts Nein SageMaker HyperPod Schulung des Bedieners
training_manual_downtime_ms Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war Nein SageMaker HyperPod Schulung des Bedieners
training_auto_recovery_count Gesamtzahl der automatischen Wiederherstellungen Nein SageMaker HyperPod geschulter Bediener
training_auto_recovery_downtime Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung Nein SageMaker HyperPod Schulung des Bedieners
training_fault_count Gesamtzahl der während des Trainings aufgetretenen Fehler Nein SageMaker HyperPod Schulung des Bedieners
training_fault_type_count Verteilung der Fehler nach Typ Nein SageMaker HyperPod Schulung des Bedieners
training_fault_recovery_time_ms Wiederherstellungszeit in Millisekunden für jeden Fehlertyp Nein SageMaker HyperPod Schulung des Bedieners
training_time_ms Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde Nein SageMaker HyperPod Schulung des Bedieners

Inferenzmetriken

Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
model_invocations_total Gesamtzahl der Aufrufanforderungen an das Modell Ja SageMaker HyperPod Inferenzoperator
model_errors_total Gesamtzahl der Fehler beim Modellaufruf Ja SageMaker HyperPod Inferenzoperator
model_concurrent_requests Aktive gleichzeitige Modellanfragen Ja SageMaker HyperPod Inferenzoperator
model_latency_milliseconds Modellieren Sie die Latenz bei Aufrufen in Millisekunden Ja SageMaker HyperPod Inferenzoperator
model_ttfb_milliseconds Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden Ja SageMaker HyperPod Inferenzoperator
TGI Diese Kennzahlen können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README Ja Modellcontainer
LMI Diese Kennzahlen können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl - .md. serving/blob/master/prometheus/README Ja Modellcontainer

Metriken zur Aufgabensteuerung

Verwenden Sie diese Metriken, um die Task-Governance und die Ressourcenzuweisung im SageMaker HyperPod Cluster zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
Warteschlange Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics/. Nein Warteschlange

Metriken skalieren

Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
KEDA-Operator-Metriken Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator. Nein Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)
KEDA-Webhook-Metriken Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks. Nein Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)
KEDA Metrics Server-Metriken Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server. Nein Ereignisgesteuerter Kubernetes-Autoscaler (KEDA)

Cluster-Metriken

Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
Zustand des Clusters Metriken für Kubernetes-API-Server. Weitere Informationen finden Sie unter https://kubernetes. io/docs/reference/instrumentation/metrics/. Ja Kubernetes
Kubestate Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources. Begrenzt Kubernetes
KubeState Fortgeschritten Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources. Nein Kubernetes

Instance-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
Knoten-Metriken Siehe https://github.com/prometheus/node_exporter? tab= #. readme-ov-file enabled-by-default Ja Kubernetes
Container-Metriken Von Cadvisor veröffentlichte Container-Metriken. Siehe https://github.com/google/cadvisor. Ja Kubernetes

Beschleunigte Berechnung von Metriken

Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
NVIDIA-GPU DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp Begrenzt

NVIDIA-GPU-Manager für Rechenzentren (DCGM)

NVIDIA-GPU (fortgeschritten)

DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind:

https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp

Nein

NVIDIA-GPU-Manager für Rechenzentren (DCGM)

AWS Trainium Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters Nein AWS Neuronenmonitor

Netzwerk-Metriken

Verwenden Sie diese Metriken, um die Leistung und den Zustand der Elastic Fabric Adapters (EFA) in Ihrem Cluster zu überwachen.

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
EFA Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. Nein Elastic Fabric Adapter

Metriken des Dateisystems

Name oder Typ der Metrik Beschreibung Standardmäßig aktiviert? Metrische Quelle
Dateisystem Amazon FSx for Lustre-Metriken von Amazon CloudWatch:

Überwachung mit Amazon CloudWatch.

Ja Amazon FSx für Lustre