Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
NVIDIA-Treiber
Amazon Linux 2023 stellt NVIDIA-GPU-Treiber und CUDA-Toolkit-Pakete über ein spezielles Repository bereit. Dieses Repository wird vom Amazon Linux Security Center (ALAS) verwaltet AWS und bietet Sicherheitsempfehlungen
Themen
Über das NVIDIA-Repository
Das AL2023 NVIDIA-Repository spiegelt Pakete aus dem offiziellen NVIDIA CUDA-Repository für AL2023
Das Repository ist in allen AWS Handelsregionen verfügbar, einschließlich der Regionen AWS GovCloud (USA) und AWS China.
Das Repository bietet NVIDIA Tesla (Compute für Rechenzentren) und Grafiktreiber für x86_64-Architekturen. GRID-Treiber, die für virtuelle Displays und Remote-Workstations verwendet werden, sind nicht enthalten. Informationen zur Installation des GRID-Treibers finden Sie unter NVIDIA-Treiber installieren im EC2-Benutzerhandbuch.
Aktivieren des NVIDIA-Repositorys
Um das NVIDIA-Repository auf Ihrer AL2023 Instance zu aktivieren, installieren Sie das nvidia-release Paket. Dadurch werden die Repository-Konfiguration und die GPG-Schlüssel zu Ihrem System hinzugefügt.
[ec2-user ~]$sudo dnf install nvidia-release -y
Stellen Sie sicher, dass das Repository hinzugefügt wurde:
[ec2-user ~]$dnf repolist
Sie sollten das amazonlinux-nvidia Repository in der Liste sehen.
repo id repo name status
amazonlinux Amazon Linux 2023 repository enabled
amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled
Installieren von NVIDIA-Treibern
Nachdem Sie das Repository aktiviert haben, können Sie NVIDIA-Treiberpakete mit installierendnf.
-
Installieren Sie die Kernel-Header und Entwicklungspakete für Ihren laufenden Kernel:
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y -
Installieren Sie den NVIDIA-Treiber:
[ec2-user ~]$sudo dnf install nvidia-driver-cuda -y -
Starten Sie die Instanz neu:
[ec2-user ~]$sudo reboot -
Stellen Sie nach dem Neustart sicher, dass der Treiber geladen ist:
[ec2-user ~]$nvidia-smi
Installation des CUDA-Toolkits
Nach der Installation des NVIDIA-Treibers können Sie das CUDA-Toolkit installieren:
[ec2-user ~]$sudo dnf install cuda-toolkit -y
Anmerkung
Installieren und aktivieren Sie für GPU-Instanzen, die NVIDIA Fabric Manager benötigen (z. B. die Instance-Typen P4d, P5 und P6), die zusätzlichen Pakete:
[ec2-user ~]$DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"[ec2-user ~]$sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y[ec2-user ~]$sudo systemctl enable --now nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable --now nvidia-persistenced
Stellen Sie sicher, dass Fabric Manager ausgeführt wird und die GPUs Verbindung hergestellt ist über: NVSwitch
[ec2-user ~]$sudo systemctl status nvidia-fabricmanager[ec2-user ~]$nvidia-smi topo -m
In der Topologiematrix GPUs sollten für Verbindungen zwischen Verbindungen NV Verbindungen angezeigt werden, was auf aktive NVSwitch Konnektivität hinweist.
Detaillierte Anweisungen zur Installation von NVIDIA-Treibern auf EC2-GPU-Instances, einschließlich der spezifischen Anforderungen für den Instance-Typ, finden Sie unter Installieren öffentlicher NVIDIA-Treiber im EC2-Benutzerhandbuch.
Das NVIDIA-Repository wird entfernt
Um die NVIDIA-Repository-Konfiguration von Ihrem System zu entfernen:
[ec2-user ~]$sudo dnf remove nvidia-release -y
Wichtig
Durch das Entfernen der Repository-Konfiguration werden keine bereits auf dem System installierten NVIDIA-Pakete entfernt.