Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Diese Lösung hilft Ihnen bei der Konfiguration der out-of-the-box Metrikerfassung mithilfe von CloudWatch Agenten für NVIDIA GPU Workloads, die auf EC2 Instanzen ausgeführt werden. Darüber hinaus hilft sie Ihnen bei der Einrichtung eines vorkonfigurierten Dashboards CloudWatch . Allgemeine Informationen zu allen CloudWatch Observability-Lösungen finden Sie unter. CloudWatch Observability-Lösungen
Themen
Voraussetzungen
Diese Lösung ist für die folgenden Bedingungen relevant:
-
Berechnung: Amazon EC2
-
Unterstützt bis zu 500 GPUs auf allen EC2 Instanzen in einer bestimmten Instanz AWS-Region
-
Aktuelle Version des CloudWatch Agenten
-
SSMDer Agent ist auf der EC2 Instanz installiert
-
Auf der EC2 Instanz muss ein NVIDIA Treiber installiert sein. NVIDIATreiber sind auf einigen Amazon Machine Images (AMIs) vorinstalliert. Andernfalls können Sie den Treiber manuell installieren. Weitere Informationen finden Sie unter NVIDIA Treiber auf Linux-Instances installieren.
Anmerkung
AWS Systems Manager (SSMAgent) ist auf einigen Amazon Machine Images (AMIs) vorinstalliert, die von AWS vertrauenswürdigen Drittanbietern bereitgestellt werden. Wenn der Agent nicht installiert ist, können Sie ihn manuell installieren, indem Sie das Verfahren für Ihren Betriebssystemtyp verwenden.
Vorteile
Die Lösung ermöglicht NVIDIA Überwachung und bietet wertvolle Erkenntnisse für die folgenden Anwendungsfälle:
-
Analysieren Sie Leistungsengpässe oder den Bedarf an zusätzlichen Ressourcen GPU und analysieren Sie die Speichernutzung.
-
Überwachen Sie Temperatur und Stromverbrauch, um sicherzustellen, dass der GPUs Betrieb innerhalb sicherer Grenzwerte erfolgt.
-
Bewerten Sie die Encoder-Leistung für GPU Video-Workloads.
-
Überprüfen Sie die PCIe Konnektivität für die erwartete Generation und Breite.
-
Überwachen Sie die GPU Taktraten, um Skalierungs- und Drosselungsprobleme zu erkennen.
Im Folgenden sind die wichtigsten Vorteile der Lösung aufgeführt:
-
Automatisiert die Erfassung von Metriken für die NVIDIA Verwendung der CloudWatch Agentenkonfiguration und macht so die manuelle Instrumentierung überflüssig.
-
Bietet ein vorkonfiguriertes, konsolidiertes CloudWatch Dashboard für NVIDIA Metriken. Das Dashboard verarbeitet automatisch Metriken von neuen NVIDIA EC2 Instanzen, die mit der Lösung konfiguriert wurden, auch wenn diese Metriken bei der ersten Erstellung des Dashboards noch nicht vorhanden waren.
Das folgende Bild ist ein Beispiel für das Dashboard für diese Lösung.

Kosten
Diese Lösung erstellt und verwendet Ressourcen in Ihrem Konto. Ihnen wird die Standardnutzung in Rechnung gestellt, einschließlich der folgenden Kosten:
-
Alle vom CloudWatch Agenten gesammelten Metriken werden als benutzerdefinierte Metriken berechnet. Die Anzahl der von dieser Lösung verwendeten Metriken hängt von der Anzahl der EC2 Hosts ab.
-
Jeder für die Lösung konfigurierte EC2 Host veröffentlicht insgesamt 17 Metriken proGPU.
-
-
Ein benutzerdefiniertes Dashboard.
-
APIOperationen, die vom CloudWatch Agenten zur Veröffentlichung der Metriken angefordert wurden. Bei der Standardkonfiguration für diese Lösung ruft der CloudWatch Agent das PutMetricDataeinmal pro Minute für jeden EC2 Host auf. Das bedeutet, PutMetricDataAPIdass der innerhalb eines 30-Tage-Monats für jeden EC2 Host aufgerufen
30*24*60=43,200
wird.
Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter CloudWatch Amazon-Preise
Mit dem Preisrechner können Sie die ungefähren monatlichen Kosten für die Nutzung dieser Lösung abschätzen.
Um den Preisrechner zur Schätzung Ihrer monatlichen Lösungskosten zu verwenden
-
Öffnen Sie den CloudWatch Amazon-Preisrechner
. -
Wählen Sie unter Region auswählen die Region aus, in der Sie die Lösung bereitstellen möchten.
-
Geben Sie im Abschnitt Metriken für Anzahl der Metriken den Wert ein
17 * average number of GPUs per EC2 host * number of EC2 instances configured for this solution
. -
Geben Sie im APIsAbschnitt für Anzahl der API Anfragen den Wert ein
43200 * number of EC2 instances configured for this solution
. -
Standardmäßig führt der CloudWatch Agent für jeden EC2 Host eine PutMetricDataOperation pro Minute aus.
-
Geben Sie im Abschnitt Dashboards und Alarme für Anzahl der Dashboards den Wert ein.
1
-
Ihre geschätzten monatlichen Kosten finden Sie unten im Preisrechner.
CloudWatch Agentenkonfiguration für diese Lösung
Der CloudWatch Agent ist eine Software, die kontinuierlich und autonom auf Ihren Servern und in containerisierten Umgebungen ausgeführt wird. Es sammelt Metriken, Logs und Traces aus Ihrer Infrastruktur und Ihren Anwendungen und sendet sie an CloudWatch X-Ray.
Weitere Informationen über den CloudWatch Agenten finden Sie unterErfassen Sie mit dem CloudWatch Agenten Metriken, Logs und Traces.
Die Agentenkonfiguration in dieser Lösung erfasst eine Reihe von Metriken, die Ihnen den Einstieg in die Überwachung und Beobachtung Ihrer Daten erleichtern NVIDIAGPU. Der CloudWatch Agent kann so konfiguriert werden, dass er standardmäßig mehr NVIDIA GPU Metriken sammelt, als das Dashboard anzeigt. Eine Liste aller NVIDIA GPU Messwerte, die Sie sammeln können, finden Sie unterErfassen von NVIDIA GPU-Metriken.
Agentenkonfiguration für diese Lösung
Die vom Agenten gesammelten Metriken sind in der Agentenkonfiguration definiert. Die Lösung bietet Agentenkonfigurationen zur Erfassung der empfohlenen Metriken mit geeigneten Dimensionen für das Dashboard der Lösung.
Verwenden Sie die folgende CloudWatch Agentenkonfiguration für EC2 Instanzen mit NVIDIAGPUs. Die Konfiguration wird als Parameter im SSM Parameterspeicher gespeichert, wie weiter unten beschriebenSchritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store.
{
"metrics": {
"namespace": "CWAgent",
"append_dimensions": {
"InstanceId": "${aws:InstanceId}"
},
"metrics_collected": {
"nvidia_gpu": {
"measurement": [
"utilization_gpu",
"temperature_gpu",
"power_draw",
"utilization_memory",
"fan_speed",
"memory_total",
"memory_used",
"memory_free",
"pcie_link_gen_current",
"pcie_link_width_current",
"encoder_stats_session_count",
"encoder_stats_average_fps",
"encoder_stats_average_latency",
"clocks_current_graphics",
"clocks_current_sm",
"clocks_current_memory",
"clocks_current_video"
],
"metrics_collection_interval": 60
}
}
},
"force_flush_interval": 60
}
Stellen Sie den Agenten für Ihre Lösung bereit
Je nach Anwendungsfall gibt es mehrere Ansätze für die Installation des CloudWatch Agenten. Wir empfehlen die Verwendung von Systems Manager für diese Lösung. Es bietet eine Konsolenerfahrung und erleichtert die Verwaltung einer Flotte verwalteter Server innerhalb eines einzigen AWS Kontos. Die Anweisungen in diesem Abschnitt verwenden Systems Manager und sind für den Fall vorgesehen, dass der CloudWatch Agent nicht mit vorhandenen Konfigurationen ausgeführt wird. Sie können überprüfen, ob der CloudWatch Agent ausgeführt wird, indem Sie die Schritte unter befolgenStellen Sie sicher, dass der CloudWatch Agent läuft.
Wenn Sie den CloudWatch Agenten bereits auf den EC2 Hosts ausführen, auf denen der Workload bereitgestellt wird, und die Agentenkonfigurationen verwalten, können Sie die Anweisungen in diesem Abschnitt überspringen und Ihren vorhandenen Bereitstellungsmechanismus verwenden, um die Konfiguration zu aktualisieren. Stellen Sie sicher, dass Sie die Agentenkonfiguration von NVIDIA GPU mit Ihrer vorhandenen Agentenkonfiguration zusammenführen und dann die zusammengeführte Konfiguration bereitstellen. Wenn Sie Systems Manager verwenden, um die Konfiguration für den CloudWatch Agenten zu speichern und zu verwalten, können Sie die Konfiguration mit dem vorhandenen Parameterwert zusammenführen. Weitere Informationen finden Sie unter CloudWatch Agent-Konfigurationsdateien verwalten.
Anmerkung
Wenn Sie Systems Manager zur Bereitstellung der folgenden CloudWatch Agentenkonfigurationen verwenden, werden alle vorhandenen CloudWatch Agentenkonfigurationen auf Ihren EC2 Instanzen ersetzt oder überschrieben. Sie können diese Konfiguration an Ihre individuelle Umgebung oder Ihren Anwendungsfall anpassen. Die in der Konfiguration definierten Metriken sind die Mindestwerte, die für das Dashboard erforderlich sind, das in der Lösung bereitgestellt wird.
Der Bereitstellungsprozess umfasst die folgenden Schritte:
-
Schritt 1: Stellen Sie sicher, dass die EC2 Zielinstanzen über die erforderlichen IAM Berechtigungen verfügen.
-
Schritt 2: Speichern Sie die empfohlene Agentenkonfigurationsdatei im Systems Manager Parameter Store.
-
Schritt 3: Installieren Sie den CloudWatch Agenten mithilfe eines AWS CloudFormation Stacks auf einer oder mehreren EC2 Instanzen.
-
Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist.
Schritt 1: Stellen Sie sicher, dass die EC2 Zielinstanzen über die erforderlichen IAM Berechtigungen verfügen
Sie müssen Systems Manager die Erlaubnis erteilen, den CloudWatch Agenten zu installieren und zu konfigurieren. Sie müssen dem CloudWatch Agenten auch die Erlaubnis erteilen, Telemetriedaten von Ihrer EC2 Instanz an zu CloudWatch veröffentlichen. Stellen Sie sicher, dass der IAM Rolle, die der Instanz zugewiesen ist, die mazonSSMManaged InstanceCore IAM Richtlinien CloudWatchAgentServerPolicyund A angehängt sind.
-
Informationen zum Erstellen einer Rolle finden Sie unter Erstellen Sie IAM-Rollen zur Verwendung mit dem CloudWatch Agenten auf Amazon-Instances EC2 .
-
Nachdem die Rolle erstellt wurde, fügen Sie sie Ihren EC2 Instanzen hinzu. Um einer EC2 Instanz eine Rolle zuzuweisen, folgen Sie den Schritten unter Eine IAM Rolle an eine Instanz anhängen.
Schritt 2: Speichern Sie die empfohlene CloudWatch Agentenkonfigurationsdatei im Systems Manager Parameter Store
Parameter Store vereinfacht die Installation des CloudWatch Agenten auf einer EC2 Instanz, indem Konfigurationsparameter sicher gespeichert und verwaltet werden, sodass keine hartcodierten Werte erforderlich sind. Dies gewährleistet einen sichereren und flexibleren Bereitstellungsprozess, ermöglicht eine zentrale Verwaltung und einfachere Aktualisierungen von Konfigurationen über mehrere Instanzen hinweg.
Gehen Sie wie folgt vor, um die empfohlene CloudWatch Agentenkonfigurationsdatei als Parameter im Parameter Store zu speichern.
Um die CloudWatch Agenten-Konfigurationsdatei als Parameter zu erstellen
Öffnen Sie die AWS Systems Manager Konsole unter https://console.aws.amazon.com/systems-manager/
. -
Stellen Sie sicher, dass es sich bei der ausgewählten Region auf der Konsole um die Region handelt, in der der NVIDIA GPU Workload ausgeführt wird.
-
Wählen Sie im Navigationsbereich Application Management, Parameter Store aus.
-
Gehen Sie wie folgt vor, um einen neuen Parameter für die Konfiguration zu erstellen.
-
Wählen Sie Create parameter (Parameter erstellen) aus.
-
Geben Sie im Feld Name einen Namen ein, mit dem Sie in späteren Schritten auf die CloudWatch Agenten-Konfigurationsdatei verweisen werden. Beispiel,
AmazonCloudWatch-NVIDIA-GPU-Configuration
. -
(Optional) Geben Sie im Feld Beschreibung eine Beschreibung für den Parameter ein.
-
Wählen Sie für Parameterebene die Option Standard aus.
-
Wählen Sie unter Type (Typ) die Option String (Zeichenfolge) aus.
-
Wählen Sie als Datentyp Text aus.
-
Fügen Sie in das Feld Wert den entsprechenden JSON Block ein, der in aufgeführt warAgentenkonfiguration für diese Lösung.
-
Wählen Sie Create parameter (Parameter erstellen) aus.
-
Schritt 3: Installieren Sie den CloudWatch Agenten und wenden Sie die Konfiguration mithilfe einer AWS CloudFormation Vorlage an
Sie können AWS CloudFormation damit den Agenten installieren und ihn so konfigurieren, dass er die CloudWatch Agentenkonfiguration verwendet, die Sie in den vorherigen Schritten erstellt haben.
Um den CloudWatch Agenten für diese Lösung zu installieren und zu konfigurieren
-
Öffnen Sie den AWS CloudFormation Quick Create Stack Wizard über diesen Link: https://console.aws.amazon.com/cloudformation/Home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/CloudWatchAgent/CFN/v1.0.0/cw agent-installation-template -1.0.0.json
. -
Stellen Sie sicher, dass es sich bei der ausgewählten Region auf der Konsole um die Region handelt, in der der Workload ausgeführt wird. NVIDIA GPU
-
Geben Sie im Feld Stackname einen Namen ein, um diesen Stack zu identifizieren, z.
CWAgentInstallationStack
B. -
Geben Sie im Abschnitt Parameter Folgendes an:
-
Geben Sie für CloudWatchAgentConfigSSMden Namen des Systems Manager Manager-Parameters für die Agentenkonfiguration ein, die Sie zuvor erstellt haben, z.
AmazonCloudWatch-NVIDIA-GPU-Configuration
B. -
Um die Zielinstanzen auszuwählen, haben Sie zwei Möglichkeiten.
-
Geben Sie für InstanceIdseine durch Kommas getrennte Liste der Instanzen eine Liste der Instanzen IDs an, auf IDs denen Sie den CloudWatch Agenten mit dieser Konfiguration installieren möchten. Sie können eine einzelne Instanz oder mehrere Instanzen auflisten.
-
Wenn Sie die Bereitstellung in großem Umfang durchführen, können Sie die TagKeyund die entsprechenden Optionen angeben TagValue, sodass alle EC2 Instanzen mit diesem Tag und Wert als Ziel ausgewählt werden. Wenn Sie eine angeben TagKey, müssen Sie eine entsprechende angeben TagValue. (Geben Sie für eine Auto Scaling Scaling-Gruppe
aws:autoscaling:groupName
für die TagKeyund den Namen der Auto Scaling Scaling-Gruppe an, die TagValueauf allen Instances innerhalb der Auto Scaling Scaling-Gruppe bereitgestellt werden soll.)
-
-
-
Überprüfen Sie die Einstellungen und wählen Sie dann Stack erstellen.
Wenn Sie die Vorlagendatei zunächst bearbeiten möchten, um sie anzupassen, wählen Sie unter Assistent zum Erstellen von Stacks die Option Vorlagendatei hochladen, um die bearbeitete Vorlage hochzuladen. Weitere Informationen finden Sie unter Einen Stack auf der AWS CloudFormation Konsole erstellen.
Anmerkung
Nach Abschluss dieses Schritts wird dieser Systems Manager Manager-Parameter den CloudWatch Agenten zugeordnet, die in den Zielinstanzen ausgeführt werden. Dies bedeutet, dass:
-
Wenn der Systems Manager Manager-Parameter gelöscht wird, wird der Agent gestoppt.
-
Wenn der Systems Manager Manager-Parameter bearbeitet wird, werden die Konfigurationsänderungen automatisch in der geplanten Häufigkeit, die standardmäßig 30 Tage beträgt, für den Agenten übernommen.
-
Wenn Sie Änderungen an diesem Systems Manager Manager-Parameter sofort anwenden möchten, müssen Sie diesen Schritt erneut ausführen. Weitere Informationen zu Zuordnungen finden Sie unter Arbeiten mit Zuordnungen in Systems Manager.
Schritt 4: Stellen Sie sicher, dass das Agenten-Setup richtig konfiguriert ist
Sie können überprüfen, ob der CloudWatch Agent installiert ist, indem Sie die Schritte unter befolgenStellen Sie sicher, dass der CloudWatch Agent läuft. Wenn der CloudWatch Agent nicht installiert ist und nicht ausgeführt wird, stellen Sie sicher, dass Sie alles richtig eingerichtet haben.
-
Stellen Sie sicher, dass Sie der EC2 Instanz eine Rolle mit den richtigen Berechtigungen zugewiesen haben, wie unter beschriebenSchritt 1: Stellen Sie sicher, dass die EC2 Zielinstanzen über die erforderlichen IAM Berechtigungen verfügen.
-
Stellen Sie sicher, dass Sie den Parameter JSON für den Systems Manager korrekt konfiguriert haben. Führen Sie die Schritte unter Fehlerbehebung bei der Installation des CloudWatch Agenten mit AWS CloudFormation aus.
Wenn alles korrekt eingerichtet ist, sollten Sie sehen, auf welcher Seite die NVIDIA GPU Metriken veröffentlicht werden CloudWatch. Sie können in der CloudWatch Konsole nachsehen, ob sie veröffentlicht wurden.
Um zu überprüfen, ob NVIDIA GPU Metriken veröffentlicht werden CloudWatch
Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/
. -
Wählen Sie Metriken, Alle Metriken aus.
-
Vergewissern Sie sich, dass Sie die Region ausgewählt haben, in der Sie die Lösung bereitgestellt haben, und wählen Sie Benutzerdefinierte Namespaces, aus. CWAgent
-
Suchen Sie nach den unter genannten KennzahlenAgentenkonfiguration für diese Lösung, z. B.
nvidia_smi_utilization_gpu
Wenn Sie Ergebnisse für diese Metriken sehen, werden die Metriken unter veröffentlicht CloudWatch.
Erstellen Sie das NVIDIA GPU Lösungs-Dashboard
Das von dieser Lösung bereitgestellte Dashboard präsentiert NVIDIA GPUs Metriken, indem es Metriken für alle Instanzen aggregiert und präsentiert. Das Dashboard zeigt eine Aufschlüsselung der wichtigsten Mitwirkenden (Top 10 pro Metrik-Widget) für jede Metrik. Auf diese Weise können Sie schnell Ausreißer oder Fälle identifizieren, die erheblich zu den beobachteten Metriken beitragen.
Um das Dashboard zu erstellen, können Sie die folgenden Optionen verwenden:
Verwenden Sie die CloudWatch Konsole, um das Dashboard zu erstellen.
Verwenden Sie die AWS CloudFormation Konsole, um das Dashboard bereitzustellen.
Laden Sie die AWS CloudFormation Infrastruktur als Code herunter und integrieren Sie sie als Teil Ihrer Continuous Integration (CI) -Automatisierung.
Wenn Sie die CloudWatch Konsole zum Erstellen eines Dashboards verwenden, können Sie eine Vorschau des Dashboards anzeigen, bevor Sie es erstellen und bezahlen.
Anmerkung
Das AWS CloudFormation in dieser Lösung erstellte Dashboard zeigt Metriken aus der Region an, in der die Lösung bereitgestellt wird. Stellen Sie sicher, dass Sie den AWS CloudFormation Stack in der Region erstellen, in der Ihre NVIDIA GPU Metriken veröffentlicht werden.
Wenn Sie einen anderen benutzerdefinierten Namespace als CWAgent in der CloudWatch Agentenkonfiguration angegeben haben, müssen Sie die AWS CloudFormation Vorlage für das Dashboard so ändern, dass sie durch den von Ihnen verwendeten benutzerdefinierten Namespace CWAgent ersetzt wird.
Um das Dashboard über die Konsole zu erstellen CloudWatch
-
Öffnen Sie die CloudWatch Konsole Create Dashboard über diesen Link: https://console.aws.amazon.com/cloudwatch/Home? #dashboards? dashboardTemplate= NvidiaGpuOnEc 2&referrer=os-Katalog
. -
Stellen Sie sicher, dass die ausgewählte Region auf der Konsole die Region ist, in der der Workload ausgeführt wird. NVIDIA GPU
-
Geben Sie den Namen des Dashboards ein und wählen Sie dann Create Dashboard aus.
Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B.
NVIDIA-GPU-Dashboard-us-east-1
-
Zeigen Sie eine Vorschau des Dashboards an und wählen Sie Speichern, um das Dashboard zu erstellen.
Um das Dashboard zu erstellen, verwenden Sie AWS CloudFormation
-
Öffnen Sie den Assistenten AWS CloudFormation zum schnellen Erstellen von Stacks über diesen Link: https://console.aws.amazon.com/cloudformation/Home? #/ stacks/quickcreate?templateURL=https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard -template-1.0.0.json
. -
Stellen Sie sicher, dass die ausgewählte Region auf der Konsole die Region ist, in der der Workload ausgeführt wird. NVIDIA GPU
-
Geben Sie unter Stackname einen Namen zur Identifizierung dieses Stacks ein, z.
NVIDIA-GPU-DashboardStack
B. -
Geben Sie im Abschnitt Parameter den Namen des Dashboards unter dem DashboardNameParameter an.
-
Um dieses Dashboard leicht von ähnlichen Dashboards in anderen Regionen zu unterscheiden, empfehlen wir, den Namen der Region in den Namen des Dashboards aufzunehmen, z. B.
NVIDIA-GPU-Dashboard-us-east-1
-
Bestätigen Sie die Zugriffsmöglichkeiten für Transformationen unter Funktionen und Transformationen. Beachten Sie, dass AWS CloudFormation dadurch keine Ressourcen hinzugefügt werden. IAM
-
Überprüfe die Einstellungen und wähle dann Stapel erstellen.
-
Wenn der Stack-Status CREATE_ lautetCOMPLETE, wählen Sie unter dem erstellten Stack die Registerkarte Ressourcen und dann den Link unter Physikalische ID, um zum Dashboard zu gelangen. Sie können auch in der CloudWatch Konsole auf das Dashboard zugreifen, indem Sie im linken Navigationsbereich der Konsole Dashboards auswählen und den Namen des Dashboards unter Benutzerdefinierte Dashboards suchen.
Wenn Sie die Vorlagendatei bearbeiten möchten, um sie für einen beliebigen Zweck anzupassen, können Sie die bearbeitete Vorlage mithilfe der Option Vorlagendatei hochladen unter dem Assistenten zum Erstellen von Stacks hochladen. Weitere Informationen finden Sie unter Einen Stack auf der AWS CloudFormation Konsole erstellen. Sie können diesen Link verwenden, um die Vorlage herunterzuladen: https://aws-observability-solutions.s3.amazonaws.com/NVIDIA_GPU_EC2/CloudWatch/CFN/v1.0.0/dashboard-template-1.0.0.json
Fangen Sie mit dem Dashboard an NVIDIA GPU
Hier sind ein paar Aufgaben, die Sie mit dem neuen NVIDIA GPU Dashboard ausprobieren können. Mit diesen Aufgaben können Sie überprüfen, ob das Dashboard ordnungsgemäß funktioniert, und Sie erhalten praktische Erfahrungen mit der Verwendung des Dashboards zur Überwachung Ihrer NVIDIAGPUs. Wenn Sie diese ausprobieren, werden Sie sich mit der Navigation im Dashboard und der Interpretation der visualisierten Kennzahlen vertraut machen.
Überprüfen Sie die Auslastung GPU
Suchen Sie im Abschnitt Auslastung nach den Widgets GPUAuslastung und Speicherauslastung. Diese zeigen den Prozentsatz der Zeit, in der GPU aktiv für Berechnungen verwendet wird, bzw. den Prozentsatz des globalen Speichers, der gelesen oder geschrieben wurde. Eine hohe Auslastung könnte auf potenzielle Leistungsengpässe oder den Bedarf an zusätzlichen Ressourcen hinweisen. GPU
Analysieren Sie die Speichernutzung GPU
Suchen Sie im Bereich Speicher nach den Widgets Gesamtspeicher, Verwendeter Speicher und Freier Speicher. Diese bieten Einblicke in die Gesamtspeicherkapazität von GPUs und darüber, wie viel Speicher derzeit verbraucht oder verfügbar ist. Speicherauslastung kann zu Leistungsproblemen oder out-of-memory Fehlern führen. Daher ist es wichtig, diese Messwerte zu überwachen und sicherzustellen, dass ausreichend Arbeitsspeicher für Ihre Workloads verfügbar ist.
Überwachen Sie Temperatur und Stromverbrauch
Suchen Sie im Bereich Temperatur/Leistung nach den Widgets GPUTemperatur und Leistungsaufnahme. Diese Messwerte sind wichtig, um sicherzustellen, dass Sie GPUs innerhalb sicherer Wärme- und Leistungsgrenzen arbeiten.
Identifizieren Sie die Leistung des Encoders
Suchen Sie im Bereich Encoder nach den Widgets Anzahl der Encoder-SitzungenFPS, Durchschnitt und Durchschnittliche Latenz. Diese Metriken sind relevant, wenn Sie Videokodierungs-Workloads auf Ihrem ausführen. GPUs Überwachen Sie diese Messwerte, um sicherzustellen, dass Ihre Encoder optimal funktionieren, und um potenzielle Engpässe oder Leistungsprobleme zu identifizieren.
Überprüfen Sie den Linkstatus PCIe
Suchen Sie in PCIediesem Abschnitt nach den Widgets PCIeLinkgenerierung und PCIeLinkbreite. Diese Metriken liefern Informationen über den PCIe Link, der das System mit GPU dem Hostsystem verbindet. Stellen Sie sicher, dass der Link mit der erwarteten Generation und Breite betrieben wird, um mögliche Leistungseinschränkungen aufgrund von PCIe Engpässen zu vermeiden.
Überprüfen Sie die Uhren GPU
Suchen Sie im Bereich Uhr nach den Widgets Graphics Clock, SM Clock, Memory Clock und Video Clock. Diese Messwerte zeigen die aktuellen Betriebsfrequenzen verschiedener GPU Komponenten. Durch die Überwachung dieser Uhren können potenzielle Probleme mit der GPU Taktskalierung oder Frequenzdrosselung identifiziert werden, die sich auf die Leistung auswirken könnten.