View a markdown version of this page

Controladores NVIDIA - Amazon Linux 2023

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Controladores NVIDIA

Amazon Linux 2023 proporciona controladores de GPU NVIDIA y paquetes de kits de herramientas CUDA a través de un repositorio dedicado. Este repositorio lo mantiene AWS y proporciona avisos de seguridad a través del Amazon Linux Security Center (ALAS).

Acerca del repositorio de NVIDIA

El repositorio de AL2023 NVIDIA refleja paquetes del repositorio CUDA oficial de NVIDIA para AL2023. AWS clasifica el software de NVIDIA con AL2023 versiones candidatas antes de redistribuirlo y proporciona avisos de seguridad para los paquetes de este repositorio.

El repositorio está disponible en todas las regiones AWS comerciales, incluidas las regiones AWS GovCloud (EE. UU.) y AWS China.

El repositorio proporciona controladores NVIDIA Tesla (computación para centros de datos) y gráficos para arquitecturas x86_64. Los controladores GRID, que se utilizan para las funciones de pantalla virtual y estación de trabajo remota, no están incluidos. Para la instalación del controlador GRID, consulte Instalación de los controladores NVIDIA en la Guía del usuario de EC2.

Habilitar el repositorio de NVIDIA

Para habilitar el repositorio de NVIDIA en la AL2023 instancia, instala el nvidia-release paquete. Esto añade la configuración del repositorio y las claves GPG al sistema.

[ec2-user ~]$ sudo dnf install nvidia-release -y

Verifica que se haya agregado el repositorio:

[ec2-user ~]$ dnf repolist

Debería ver el amazonlinux-nvidia repositorio en la lista.

repo id repo name status amazonlinux Amazon Linux 2023 repository enabled amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled

Instalación de controladores NVIDIA

Tras habilitar el repositorio, puede instalar los paquetes de controladores de NVIDIA utilizandodnf.

  1. Instale los encabezados del núcleo y los paquetes de desarrollo para el núcleo en ejecución:

    [ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
  2. Instale el controlador NVIDIA:

    [ec2-user ~]$ sudo dnf install nvidia-driver-cuda -y
  3. Reinicia la instancia:

    [ec2-user ~]$ sudo reboot
  4. Tras reiniciar, compruebe que el controlador esté cargado:

    [ec2-user ~]$ nvidia-smi

Instalación del kit de herramientas CUDA

Tras instalar el controlador NVIDIA, puede instalar el kit de herramientas CUDA:

[ec2-user ~]$ sudo dnf install cuda-toolkit -y
nota

Para las instancias de GPU que requieren NVIDIA Fabric Manager (como los tipos de instancia P4d, P5 y P6), instala y habilita los paquetes adicionales:

[ec2-user ~]$ DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)" [ec2-user ~]$ sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y [ec2-user ~]$ sudo systemctl enable --now nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable --now nvidia-persistenced

Compruebe que Fabric Manager se esté ejecutando y que GPUs estén conectados a través de: NVSwitch

[ec2-user ~]$ sudo systemctl status nvidia-fabricmanager [ec2-user ~]$ nvidia-smi topo -m

En la matriz de topología, las conexiones entre ellas GPUs deben mostrar NV enlaces, lo que indica la NVSwitch conectividad activa.

Para obtener instrucciones detalladas sobre la instalación de los controladores de NVIDIA en las instancias de GPU de EC2, incluidos los requisitos específicos del tipo de instancia, consulte Instalación de los controladores públicos de NVIDIA en la Guía del usuario de EC2.

Eliminar el repositorio de NVIDIA

Para eliminar la configuración del repositorio de NVIDIA del sistema:

[ec2-user ~]$ sudo dnf remove nvidia-release -y
importante

Al eliminar la configuración del repositorio, no se elimina ningún paquete de NVIDIA que ya esté instalado en el sistema.