本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
NVIDIA 驅動程式
Amazon Linux 2023 透過專用儲存庫提供 NVIDIA GPU 驅動程式和 CUDA 工具組套件。此儲存庫由 維護 AWS ,並透過 Amazon Linux 安全中心 (ALAS)
關於 NVIDIA 儲存庫
AL2023 NVIDIA 儲存庫會從適用於 AL2023 的官方 NVIDIA CUDA 儲存庫
儲存庫適用於所有 AWS 商業區域,包括 GovCloud AWS (US) 區域和 AWS 中國區域。
儲存庫提供適用於 x86_64 架構的 NVIDIA Tesla (資料中心運算) 和圖形驅動程式。不包含用於虛擬顯示器和遠端工作站功能的 GRID 驅動程式。如需 GRID 驅動程式安裝,請參閱 EC2 使用者指南中的安裝 NVIDIA 驅動程式。
啟用 NVIDIA 儲存庫
若要在 AL2023 執行個體上啟用 NVIDIA 儲存庫,請安裝 nvidia-release套件。這會將儲存庫組態和 GPG 金鑰新增至您的系統。
[ec2-user ~]$sudo dnf install nvidia-release -y
確認已新增儲存庫:
[ec2-user ~]$dnf repolist
您應該會在清單中看到儲存amazonlinux-nvidia庫。
repo id repo name status
amazonlinux Amazon Linux 2023 repository enabled
amazonlinux-nvidia Amazon Linux 2023 NVIDIA repository enabled
安裝 NVIDIA 驅動程式
啟用儲存庫後,您可以使用 安裝 NVIDIA 驅動程式套件dnf。
-
安裝執行中核心的核心標頭和開發套件:
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y -
安裝 NVIDIA 驅動程式:
[ec2-user ~]$sudo dnf install nvidia-driver-cuda -y -
重新啟動執行個體:
[ec2-user ~]$sudo reboot -
重新啟動後,請確認驅動程式已載入:
[ec2-user ~]$nvidia-smi
安裝 CUDA 工具組
安裝 NVIDIA 驅動程式後,您可以安裝 CUDA 工具組:
[ec2-user ~]$sudo dnf install cuda-toolkit -y
注意
對於需要 NVIDIA Fabric Manager 的 GPU 執行個體 (例如 P4d、P5 和 P6 執行個體類型),請安裝並啟用其他套件:
[ec2-user ~]$DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"[ec2-user ~]$sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y[ec2-user ~]$sudo systemctl enable --now nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable --now nvidia-persistenced
確認 Fabric Manager 正在執行,且 GPUs 透過 NVSwitch 連接:
[ec2-user ~]$sudo systemctl status nvidia-fabricmanager[ec2-user ~]$nvidia-smi topo -m
在拓撲矩陣中,GPUs 之間的連線應會顯示NV連結,指出作用中的 NVSwitch 連線。
如需在 EC2 GPU 執行個體上安裝 NVIDIA 驅動程式的詳細說明,包括執行個體類型特定需求,請參閱 EC2 使用者指南中的安裝 NVIDIA 公有驅動程式。
移除 NVIDIA 儲存庫
若要從系統中移除 NVIDIA 儲存庫組態:
[ec2-user ~]$sudo dnf remove nvidia-release -y
重要
移除儲存庫組態不會移除任何已安裝在系統上的 NVIDIA 套件。