View a markdown version of this page

NVIDIA-Treiber - Amazon Linux 2023

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

NVIDIA-Treiber

Amazon Linux 2023 stellt NVIDIA-GPU-Treiber und CUDA-Toolkit-Pakete über ein spezielles Repository bereit. Dieses Repository wird vom Amazon Linux Security Center (ALAS) verwaltet AWS und bietet Sicherheitsempfehlungen.

Über das NVIDIA-Repository

Das AL2023 NVIDIA-Repository spiegelt Pakete aus dem offiziellen NVIDIA CUDA-Repository für AL2023. AWS qualifiziert NVIDIA-Software vor der Weiterverbreitung anhand von AL2023 Release-Kandidaten und gibt Sicherheitshinweise für die Pakete in diesem Repository.

Das Repository ist in allen AWS Handelsregionen verfügbar, einschließlich der Regionen AWS GovCloud (USA) und AWS China.

Das Repository bietet NVIDIA Tesla (Compute für Rechenzentren) und Grafiktreiber für x86_64-Architekturen. GRID-Treiber, die für virtuelle Displays und Remote-Workstations verwendet werden, sind nicht enthalten. Informationen zur Installation des GRID-Treibers finden Sie unter NVIDIA-Treiber installieren im EC2-Benutzerhandbuch.

Aktivieren des NVIDIA-Repositorys

Um das NVIDIA-Repository auf Ihrer AL2023 Instance zu aktivieren, installieren Sie das nvidia-release Paket. Dadurch werden die Repository-Konfiguration und die GPG-Schlüssel zu Ihrem System hinzugefügt.

[ec2-user ~]$ sudo dnf install nvidia-release -y

Stellen Sie sicher, dass das Repository hinzugefügt wurde:

[ec2-user ~]$ dnf repolist

Sie sollten das amazonlinux-nvidia Repository in der Liste sehen.

repo id repo name status amazonlinux Amazon Linux 2023 repository enabled amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled

Installieren von NVIDIA-Treibern

Nachdem Sie das Repository aktiviert haben, können Sie NVIDIA-Treiberpakete mit installierendnf.

  1. Installieren Sie die Kernel-Header und Entwicklungspakete für Ihren laufenden Kernel:

    [ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
  2. Installieren Sie den NVIDIA-Treiber:

    [ec2-user ~]$ sudo dnf install nvidia-driver-cuda -y
  3. Starten Sie die Instanz neu:

    [ec2-user ~]$ sudo reboot
  4. Stellen Sie nach dem Neustart sicher, dass der Treiber geladen ist:

    [ec2-user ~]$ nvidia-smi

Installation des CUDA-Toolkits

Nach der Installation des NVIDIA-Treibers können Sie das CUDA-Toolkit installieren:

[ec2-user ~]$ sudo dnf install cuda-toolkit -y
Anmerkung

Installieren und aktivieren Sie für GPU-Instanzen, die NVIDIA Fabric Manager benötigen (z. B. die Instance-Typen P4d, P5 und P6), die zusätzlichen Pakete:

[ec2-user ~]$ DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)" [ec2-user ~]$ sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y [ec2-user ~]$ sudo systemctl enable --now nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable --now nvidia-persistenced

Stellen Sie sicher, dass Fabric Manager ausgeführt wird und die GPUs Verbindung hergestellt ist über: NVSwitch

[ec2-user ~]$ sudo systemctl status nvidia-fabricmanager [ec2-user ~]$ nvidia-smi topo -m

In der Topologiematrix GPUs sollten für Verbindungen zwischen Verbindungen NV Verbindungen angezeigt werden, was auf aktive NVSwitch Konnektivität hinweist.

Detaillierte Anweisungen zur Installation von NVIDIA-Treibern auf EC2-GPU-Instances, einschließlich der spezifischen Anforderungen für den Instance-Typ, finden Sie unter Installieren öffentlicher NVIDIA-Treiber im EC2-Benutzerhandbuch.

Das NVIDIA-Repository wird entfernt

Um die NVIDIA-Repository-Konfiguration von Ihrem System zu entfernen:

[ec2-user ~]$ sudo dnf remove nvidia-release -y
Wichtig

Durch das Entfernen der Repository-Konfiguration werden keine bereits auf dem System installierten NVIDIA-Pakete entfernt.