Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
SageMaker HyperPod Cluster-Metriken
Amazon SageMaker HyperPod (SageMaker HyperPod) veröffentlicht verschiedene Kennzahlen in 9 verschiedenen Kategorien in Ihrem Amazon Managed Service for Prometheus-Workspace. Nicht alle Metriken sind standardmäßig aktiviert oder werden in Ihrem Amazon Managed Grafana-Arbeitsbereich angezeigt. Die folgende Tabelle zeigt, welche Metriken standardmäßig aktiviert sind, wenn Sie das Observability-Add-on installieren, welche Kategorien zusätzliche Metriken haben, die für detailliertere Clusterinformationen aktiviert werden können, und wo sie im Amazon Managed Grafana-Arbeitsbereich angezeigt werden.
Metrik-Kategorie | Standardmäßig aktiviert? | Zusätzliche erweiterte Metriken verfügbar? | Verfügbar unter welchen Grafana-Dashboards? |
---|---|---|---|
Trainingsmetriken | Ja | Ja | Training |
Inferenzmetriken | Ja | Nein | Inferenz |
Metriken zur Aufgabensteuerung | Nein | Ja | Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen. |
Metriken skalieren | Nein | Ja | Keine. Fragen Sie Ihren Amazon Managed Service for Prometheus Workspace ab, um Ihr eigenes Dashboard zu erstellen. |
Cluster-Metriken | Ja | Ja | Cluster |
Instance-Metriken | Ja | Ja | Cluster |
Beschleunigte Berechnung von Metriken | Ja | Ja | Aufgabe, Cluster |
Netzwerk-Metriken | Nein | Ja | Cluster |
Dateisystem | Ja | Nein | Dateisystem |
In den folgenden Tabellen werden die Metriken beschrieben, die für die Überwachung Ihres SageMaker HyperPod Clusters verfügbar sind, geordnet nach Kategorien.
Metriken für Schulungen
Verwenden Sie diese Metriken, um die Leistung der auf dem SageMaker HyperPod Cluster ausgeführten Trainingsaufgaben zu verfolgen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
Kubeflow-Metriken | https://github.com/kubeflow/Trainer |
Ja | Kubeflow |
Kubernetes-Pod-Metriken | https://github.com/kubernetes/kube-state-metrics |
Ja | Kubernetes |
training_uptime_percentage |
Prozentualer Anteil der Trainingszeit an der Gesamtfenstergröße | Nein | SageMaker HyperPod Schulung des Bedieners |
training_manual_recovery_count |
Gesamtzahl der für den Job durchgeführten manuellen Neustarts | Nein | SageMaker HyperPod Schulung des Bedieners |
training_manual_downtime_ms |
Gesamtzeit in Millisekunden, in der der Job aufgrund manueller Eingriffe ausgefallen war | Nein | SageMaker HyperPod Schulung des Bedieners |
training_auto_recovery_count |
Gesamtzahl der automatischen Wiederherstellungen | Nein | SageMaker HyperPod geschulter Bediener |
training_auto_recovery_downtime |
Gesamter Infrastruktur-Overhead in Millisekunden während der Fehlerbehebung | Nein | SageMaker HyperPod Schulung des Bedieners |
training_fault_count |
Gesamtzahl der während des Trainings aufgetretenen Fehler | Nein | SageMaker HyperPod Schulung des Bedieners |
training_fault_type_count |
Verteilung der Fehler nach Typ | Nein | SageMaker HyperPod Schulung des Bedieners |
training_fault_recovery_time_ms |
Wiederherstellungszeit in Millisekunden für jeden Fehlertyp | Nein | SageMaker HyperPod Schulung des Bedieners |
training_time_ms |
Gesamtzeit in Millisekunden, die für das tatsächliche Training aufgewendet wurde | Nein | SageMaker HyperPod Schulung des Bedieners |
Inferenzmetriken
Verwenden Sie diese Metriken, um die Leistung von Inferenzaufgaben auf dem SageMaker HyperPod Cluster zu verfolgen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
model_invocations_total |
Gesamtzahl der Aufrufanforderungen an das Modell | Ja | SageMaker HyperPod Inferenzoperator |
model_errors_total |
Gesamtzahl der Fehler beim Modellaufruf | Ja | SageMaker HyperPod Inferenzoperator |
model_concurrent_requests |
Aktive gleichzeitige Modellanfragen | Ja | SageMaker HyperPod Inferenzoperator |
model_latency_milliseconds |
Modellieren Sie die Latenz bei Aufrufen in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
model_ttfb_milliseconds |
Modellieren Sie die Latenz von der Zeit bis zum ersten Byte in Millisekunden | Ja | SageMaker HyperPod Inferenzoperator |
TGI | Diese Kennzahlen können verwendet werden, um die Leistung von TGI zu überwachen, die Bereitstellung automatisch zu skalieren und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/ djl- .md. serving/blob/master/prometheus/README |
Ja | Modellcontainer |
LMI | Diese Kennzahlen können verwendet werden, um die Leistung von LMI zu überwachen und Engpässe zu identifizieren. Eine detaillierte Liste der Metriken finden Sie unter https://github.com/deepjavalibrary/djl |
Ja | Modellcontainer |
Metriken zur Aufgabensteuerung
Verwenden Sie diese Metriken, um die Task-Governance und die Ressourcenzuweisung im SageMaker HyperPod Cluster zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
Warteschlange | Weitere Informationen finden Sie unter https://kueue.sigs.k8s. io/docs/reference/metrics |
Nein | Warteschlange |
Metriken skalieren
Verwenden Sie diese Metriken, um das Verhalten und die Leistung der auto-scaling auf dem SageMaker HyperPod Cluster zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
KEDA-Operator-Metriken | Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#operator |
Nein | Ereignisgesteuerter Kubernetes-Autoscaler (KEDA) |
KEDA-Webhook-Metriken | Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#admission -webhooks |
Nein | Ereignisgesteuerter Kubernetes-Autoscaler (KEDA) |
KEDA Metrics Server-Metriken | Weitere Informationen finden Sie unter https://keda. sh/docs/2.17/integrations/prometheus/#metrics -server |
Nein | Ereignisgesteuerter Kubernetes-Autoscaler (KEDA) |
Cluster-Metriken
Verwenden Sie diese Metriken, um den Gesamtzustand des Clusters und die Ressourcenzuweisung zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
Zustand des Clusters | Metriken für Kubernetes-API-Server. Weitere Informationen finden Sie unter https://kubernetes. io/docs/reference/instrumentation/metrics |
Ja | Kubernetes |
Kubestate | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#default -resources |
Begrenzt | Kubernetes |
KubeState Fortgeschritten | Siehe https://github.com/kubernetes/kube-state-metrics/tree/main/docs#optional -resources |
Nein | Kubernetes |
Instance-Metriken
Verwenden Sie diese Metriken, um die Leistung und den Zustand einzelner Instances zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
Knoten-Metriken | Siehe https://github.com/prometheus/node_exporter? tab= #. readme-ov-file enabled-by-default |
Ja | Kubernetes |
Container-Metriken | Von Cadvisor veröffentlichte Container-Metriken. Siehe https://github.com/google/cadvisor |
Ja | Kubernetes |
Beschleunigte Berechnung von Metriken
Verwenden Sie diese Metriken, um die Leistung, den Zustand und die Auslastung einzelner Accelerated Computing-Geräte in Ihrem Cluster zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
NVIDIA-GPU | DCGM-Metriken. Siehe https://github.com/NVIDIA/dcgm--metrics-included.csv. exporter/blob/main/etc/dcp |
Begrenzt |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
NVIDIA-GPU (fortgeschritten) |
DCGM-Metriken, die in der folgenden CSV-Datei auskommentiert sind: https://github.com/NVIDIA/dcgm- -metrics-included.csv exporter/blob/main/etc/dcp |
Nein |
NVIDIA-GPU-Manager für Rechenzentren (DCGM) |
AWS Trainium | Neuronenmetriken. Siehe https://awsdocs-neuron.readthedocs-hosted.com/en/latest/tools/neuron-sys-tools/neuron- monitor-user-guide .html#. neuron-monitor-nc-counters |
Nein | AWS Neuronenmonitor |
Netzwerk-Metriken
Verwenden Sie diese Metriken, um die Leistung und den Zustand der Elastic Fabric Adapters (EFA) in Ihrem Cluster zu überwachen.
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
EFA | Siehe https://github.com/aws-samples/awsome-distributed-training/blob/main/4.validation_and_observability/3.efa-node-exporter/README.md. |
Nein | Elastic Fabric Adapter |
Metriken des Dateisystems
Name oder Typ der Metrik | Beschreibung | Standardmäßig aktiviert? | Metrische Quelle |
---|---|---|---|
Dateisystem | Amazon FSx for Lustre-Metriken von Amazon CloudWatch: | Ja | Amazon FSx für Lustre |