本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
NVIDIA 驱动程序
亚马逊 Linux 2023 通过专用存储库提供 NVIDIA GPU 驱动程序和 CUDA 工具包。该存储库由 Amazon Linux 安全中心 (ALAS) 维护 AWS 并通过该中心提供安全
关于 NVIDIA 存储库
AL2023 NVIDIA 存储库镜像来自官方 NVIDIA CUDA 存储库的 AL2023
该存储库可在所有 AWS 商业区域使用,包括 AWS GovCloud (美国)地区和 AWS 中国区域。
该存储库提供适用于 x86_64 架构的 NVIDIA Tesla(数据中心计算)和显卡驱动程序。不包括用于虚拟显示和远程工作站功能的 GRID 驱动程序。要安装 GRID 驱动程序,请参阅《EC2 用户指南》中的 “安装 NVIDIA 驱动程序”。
启用 NVIDIA 存储库
要在您的 AL2023 实例上启用 NVIDIA 存储库,请安装nvidia-release软件包。这会将存储库配置和 GPG 密钥添加到您的系统中。
[ec2-user ~]$sudo dnf install nvidia-release -y
验证存储库是否已添加:
[ec2-user ~]$dnf repolist
您应该会在列表中看到amazonlinux-nvidia存储库。
repo id repo name status
amazonlinux Amazon Linux 2023 repository enabled
amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled
安装 NVIDIA 驱动程序
启用存储库后,您可以使用安装 NVIDIA 驱动程序包dnf。
-
为正在运行的内核安装内核头文件和开发包:
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y -
安装 NVIDIA 驱动程序:
[ec2-user ~]$sudo dnf install nvidia-driver-cuda -y -
重启实例:
[ec2-user ~]$sudo reboot -
重新启动后,验证驱动程序是否已加载:
[ec2-user ~]$nvidia-smi
安装 CUDA 工具包
安装 NVIDIA 驱动程序后,您可以安装 CUDA 工具包:
[ec2-user ~]$sudo dnf install cuda-toolkit -y
注意
对于需要 NVIDIA Fabric Manager 的 GPU 实例(例如 p4d、P5 和 P6 实例类型),请安装并启用其他软件包:
[ec2-user ~]$DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"[ec2-user ~]$sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y[ec2-user ~]$sudo systemctl enable --now nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable --now nvidia-persistenced
验证结构管理器是否正在运行并且已通过 NVSwitch以下方式连接: GPUs
[ec2-user ~]$sudo systemctl status nvidia-fabricmanager[ec2-user ~]$nvidia-smi topo -m
在拓扑矩阵中,两者之间的连接 GPUs 应显示NV链路,表示 NVSwitch连接处于活动状态。
有关在 EC2 GPU 实例上安装 NVIDIA 驱动程序的详细说明,包括特定实例类型的要求,请参阅 EC2 用户指南中的安装 NVIDIA 公共驱动程序。
移除 NVIDIA 存储库
要从系统中删除 NVIDIA 存储库配置,请执行以下操作:
[ec2-user ~]$sudo dnf remove nvidia-release -y
重要
移除存储库配置并不会删除系统上已安装的任何 NVIDIA 软件包。