Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Controladores NVIDIA
Amazon Linux 2023 proporciona controladores de GPU NVIDIA y paquetes de kits de herramientas CUDA a través de un repositorio dedicado. Este repositorio lo mantiene AWS y proporciona avisos de seguridad a través del Amazon Linux Security Center (ALAS).
Temas
Acerca del repositorio de NVIDIA
El repositorio de AL2023 NVIDIA refleja paquetes del repositorio CUDA oficial de NVIDIA para AL2023
El repositorio está disponible en todas las regiones AWS comerciales, incluidas las regiones AWS GovCloud (EE. UU.) y AWS China.
El repositorio proporciona controladores NVIDIA Tesla (computación para centros de datos) y gráficos para arquitecturas x86_64. Los controladores GRID, que se utilizan para las funciones de pantalla virtual y estación de trabajo remota, no están incluidos. Para la instalación del controlador GRID, consulte Instalación de los controladores NVIDIA en la Guía del usuario de EC2.
Habilitar el repositorio de NVIDIA
Para habilitar el repositorio de NVIDIA en la AL2023 instancia, instala el nvidia-release paquete. Esto añade la configuración del repositorio y las claves GPG al sistema.
[ec2-user ~]$sudo dnf install nvidia-release -y
Verifica que se haya agregado el repositorio:
[ec2-user ~]$dnf repolist
Debería ver el amazonlinux-nvidia repositorio en la lista.
repo id repo name status
amazonlinux Amazon Linux 2023 repository enabled
amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled
Instalación de controladores NVIDIA
Tras habilitar el repositorio, puede instalar los paquetes de controladores de NVIDIA utilizandodnf.
-
Instale los encabezados del núcleo y los paquetes de desarrollo para el núcleo en ejecución:
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y -
Instale el controlador NVIDIA:
[ec2-user ~]$sudo dnf install nvidia-driver-cuda -y -
Reinicia la instancia:
[ec2-user ~]$sudo reboot -
Tras reiniciar, compruebe que el controlador esté cargado:
[ec2-user ~]$nvidia-smi
Instalación del kit de herramientas CUDA
Tras instalar el controlador NVIDIA, puede instalar el kit de herramientas CUDA:
[ec2-user ~]$sudo dnf install cuda-toolkit -y
nota
Para las instancias de GPU que requieren NVIDIA Fabric Manager (como los tipos de instancia P4d, P5 y P6), instala y habilita los paquetes adicionales:
[ec2-user ~]$DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"[ec2-user ~]$sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y[ec2-user ~]$sudo systemctl enable --now nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable --now nvidia-persistenced
Compruebe que Fabric Manager se esté ejecutando y que GPUs estén conectados a través de: NVSwitch
[ec2-user ~]$sudo systemctl status nvidia-fabricmanager[ec2-user ~]$nvidia-smi topo -m
En la matriz de topología, las conexiones entre ellas GPUs deben mostrar NV enlaces, lo que indica la NVSwitch conectividad activa.
Para obtener instrucciones detalladas sobre la instalación de los controladores de NVIDIA en las instancias de GPU de EC2, incluidos los requisitos específicos del tipo de instancia, consulte Instalación de los controladores públicos de NVIDIA en la Guía del usuario de EC2.
Eliminar el repositorio de NVIDIA
Para eliminar la configuración del repositorio de NVIDIA del sistema:
[ec2-user ~]$sudo dnf remove nvidia-release -y
importante
Al eliminar la configuración del repositorio, no se elimina ningún paquete de NVIDIA que ya esté instalado en el sistema.