本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
安裝 NVIDIA 公有驅動程式
如果 中所述 AWS Marketplace AMIs 使用包含 NVIDIA 驅動程式的 AMI不符合您的使用案例,您可以安裝公有驅動程式並自帶授權。安裝選項包含下列項目:
-
選項 2:透過 CUDA 工具組安裝 (建議用於 Linux 發行版本)
P6-B200 和 P6-B300 執行個體類型考量事項
P6-B200 和 P6-B300 平台是唯一的,因為它們以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 網路介面卡 NICs)。這些 NICs 不會做為一般網路介面,而是做為 NVSwitch 橋接器,提供用於初始化和設定 NVFabric 的控制路徑,這是 GPU 互連的 NVLink 拓撲。
若要完整初始化系統,NVIDIA Fabric Manager 必須設定 NVFabric 並建立 NVSwitch 拓撲。如此一來,InfiniBand 核心模組就能與 Mellanox ConnectX NICs通訊。
NVIDIA Fabric Manager 已包含於 CUDA 工具組中。我們建議為此執行個體類型使用 選項 2:透過 CUDA 工具組安裝。
選項 1:僅安裝驅動程式
若要安裝特定驅動程式,請登入您的執行個體,並從 http://www.nvidia.com/Download/Find.aspx
然後遵循 NVIDIA 驅動程式安裝指南中的本機儲存庫安裝說明。 https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html
注意
P6-B200 和 P6-B300 執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。如需進一步資訊,請參閱 選項 2:透過 CUDA 工具組安裝 中適用於您的 Linux 發行版本的說明。
| 執行個體 | 產品類型 | 產品系列 | 產品 | 最低驅動程式版本 |
|---|---|---|---|---|
| G3 | Tesla | M-Class | M60 | -- |
| G4dn | Tesla | T 系列 | T4 | -- |
| G5 | Tesla | A 系列 | A10 | 470.00 或更新版本 |
| G5g1 | Tesla | T 系列 | NVIDIA T4G | 470.82.01 或更新版本 |
| G6 | Tesla | L 系列 | L4 | 525.0 或更新版本 |
| G6e | Tesla | L 系列 | L40S | 535.0 或更新版本 |
| Gr6 | Tesla | L 系列 | L4 | 525.0 或更新版本 |
| P2 | Tesla | K 系列 | K80 | -- |
| P3 | Tesla | V 系列 | V100 | -- |
| P4d | Tesla | A 系列 | A100 | -- |
| P4de | Tesla | A 系列 | A100 | -- |
| P5 | Tesla | H 系列 | H100 | 530 或更新版本 |
| P5e | Tesla | H 系列 | H200 | 550 或更新版本 |
| P5en | Tesla | H 系列 | H200 | 550 或更新版本 |
| P6-B2002 | Tesla | HGX 系列 | B200 | 570 或更新版本 |
| P6e-GB200 | Tesla | HGX 系列 | B200 | 570 或更新版本 |
| P6-B3002 | Tesla | HGX 系列 | B300 | 580 或更新版本 |
1 G5g 執行個體的作業系統為 Linux aarch64。
2 對於 P6-B200 和 P6-B300 執行個體類型,設定 NVIDIA Fabric Manager 有額外的安裝需求。
選項 2:透過 CUDA 工具組安裝
安裝說明會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在您的執行個體上安裝公有驅動程式,請遵循適用於您的執行個體作業系統的說明。若您的執行個體作業系統未列於此,請遵循 NVIDIA 開發人員網站上的作業系統與執行個體類型架構說明。如需詳細資訊,請參閱 CUDA Toolkit Downloads
有關執行個體類型架構或其他規格,請參閱《Amazon EC2 執行個體類型參考》中的加速運算規格。
本節說明如何在 Amazon Linux 2023 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。
如需 arm64-sbsa 命令,請參閱 CUDA Toolkit Downloads
先決條件
安裝工具組與驅動程式前,執行下列命令,以確保您具備正確版本的核心標頭與開發套件。
[ec2-user ~]$sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
下載工具組與驅動程式
選擇適用於您執行個體的安裝類型,並遵循相關步驟。
本機安裝與網路安裝的其餘步驟相同。
-
完成 CUDA 工具組安裝
[ec2-user ~]$sudo dnf clean all[ec2-user ~]$sudo dnf install cuda-toolkit -y -
安裝驅動程式的開放式核心模組版本
[ec2-user ~]$sudo dnf module install nvidia-driver:open-dkms -y -
安裝 GPUDirect Storage 與 Fabric Manager
[ec2-user ~]$sudo dnf install nvidia-gds -y[ec2-user ~]$sudo dnf install nvidia-fabric-manager -y -
啟用 Fabric Manager 與驅動程式持久性
[ec2-user ~]$sudo systemctl enable nvidia-fabricmanager[ec2-user ~]$sudo systemctl enable nvidia-persistenced -
(僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。
-
安裝 NVIDIA Link Subnet Manager 與
ibstat。[ec2-user ~]$sudo dnf install nvlink5 -
啟用在啟動時自動載入 Infiniband 模組。
[ec2-user ~]$echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
-
-
重新啟動執行個體
[ec2-user ~]$sudo reboot
本節說明如何在 Ubuntu 24.04 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。
如需 arm64-sbsa 命令,請參閱 CUDA Toolkit Downloads
先決條件
安裝工具組與驅動程式前,執行下列命令,以確保您具備正確版本的核心標頭與開發套件。
$apt install linux-headers-$(uname -r)
下載工具組與驅動程式
選擇適用於您執行個體的安裝類型,並遵循相關步驟。
本機安裝與網路安裝的其餘步驟相同。
-
完成 CUDA 工具組安裝
$sudo apt update$sudo apt install cuda-toolkit -y -
安裝驅動程式的開放式核心模組版本
$sudo apt install nvidia-open -y -
安裝 GPUDirect Storage 與 Fabric Manager
$sudo apt install nvidia-gds -y$sudo apt install nvidia-fabricmanager -y -
啟用 Fabric Manager 與驅動程式持久性
$sudo systemctl enable nvidia-fabricmanager$sudo systemctl enable nvidia-persistenced -
(僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。
-
安裝最新的 InfiniBand 特定裝置驅動程式和診斷公用程式。
$sudo apt install linux-modules-extra-$(uname -r) -y$sudo apt install infiniband-diags -y -
安裝 NVIDIA Link Subnet Manager。
$sudo apt install nvlsm -y
-
-
重新啟動執行個體
sudo reboot -
更新路徑並新增下列環境變數。
$export PATH=${PATH}:/usr/local/cuda-13.0/bin$export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64
若要在 Windows 上安裝 NVIDIA 驅動程序,請依照下列步驟操作:
-
開啟您下載驅動程式的所在資料夾,並啟動安裝檔案。依照指示安裝驅動程式,並視需要將執行個體重新開機。
-
使用 Device Manager 停用標有警告圖示的名為 Microsoft Basic Display Adapter 的顯示轉接器。安裝這些 Windows 功能:Media Foundation 和 Quality Windows Audio Video Experience (高品質 Windows 音訊/視訊體驗)。
重要
請勿停用名為 Microsoft Remote Display Adapter 的顯示轉接器。如果停用 Microsoft Remote Display Adapter,您的連線可能會中斷,並在重新開機後會嘗試連線至執行個體可能會失敗。
-
檢查裝置管理員,確認 GPU 是否正常運作。
-
若要達到 GPU 的最佳效能,請完成在 Amazon EC2 執行個體最佳化 GPU 設定中的最佳化步驟。