安裝 NVIDIA 公有驅動程式

如果中所述 AWS Marketplace AMIs 使用包含 NVIDIA 驅動程式的 AMI不符合您的使用案例，您可以安裝公有驅動程式並自帶授權。安裝選項包含下列項目：

選項 1：僅安裝驅動程式
選項 2：透過 CUDA 工具組安裝 (建議用於 Linux 發行版本)

P6-B200 和 P6-B300 執行個體類型考量事項

P6-B200 和 P6-B300 平台是唯一的，因為它們以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 網路介面卡 NICs)。這些 NICs 不會做為一般網路介面，而是做為 NVSwitch 橋接器，提供用於初始化和設定 NVFabric 的控制路徑，這是 GPU 互連的 NVLink 拓撲。

若要完整初始化系統，NVIDIA Fabric Manager 必須設定 NVFabric 並建立 NVSwitch 拓撲。如此一來，InfiniBand 核心模組就能與 Mellanox ConnectX NICs通訊。

NVIDIA Fabric Manager 已包含於 CUDA 工具組中。我們建議為此執行個體類型使用選項 2：透過 CUDA 工具組安裝。

選項 1：僅安裝驅動程式

若要安裝特定驅動程式，請登入您的執行個體，並從 http://www.nvidia.com/Download/Find.aspx：// 下載執行個體類型的 64 位元 NVIDIA 公有驅動程式。對於產品類型、產品系列及產品，請使用下表中顯示的選項。

然後遵循 NVIDIA 驅動程式安裝指南中的本機儲存庫安裝說明。 https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html

注意

P6-B200 和 P6-B300 執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。如需進一步資訊，請參閱選項 2：透過 CUDA 工具組安裝中適用於您的 Linux 發行版本的說明。

執行個體	產品類型	產品系列	產品	最低驅動程式版本
G3	Tesla	M-Class	M60	--
G4dn	Tesla	T 系列	T4	--
G5	Tesla	A 系列	A10	470.00 或更新版本
G5g¹	Tesla	T 系列	NVIDIA T4G	470.82.01 或更新版本
G6	Tesla	L 系列	L4	525.0 或更新版本
G6e	Tesla	L 系列	L40S	535.0 或更新版本
Gr6	Tesla	L 系列	L4	525.0 或更新版本
P2	Tesla	K 系列	K80	--
P3	Tesla	V 系列	V100	--
P4d	Tesla	A 系列	A100	--
P4de	Tesla	A 系列	A100	--
P5	Tesla	H 系列	H100	530 或更新版本
P5e	Tesla	H 系列	H200	550 或更新版本
P5en	Tesla	H 系列	H200	550 或更新版本
P6-B200²	Tesla	HGX 系列	B200	570 或更新版本
P6e-GB200	Tesla	HGX 系列	B200	570 或更新版本
P6-B300²	Tesla	HGX 系列	B300	580 或更新版本

¹ G5g 執行個體的作業系統為 Linux aarch64。

² 對於 P6-B200 和 P6-B300 執行個體類型，設定 NVIDIA Fabric Manager 有額外的安裝需求。

選項 2：透過 CUDA 工具組安裝

安裝說明會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在您的執行個體上安裝公有驅動程式，請遵循適用於您的執行個體作業系統的說明。若您的執行個體作業系統未列於此，請遵循 NVIDIA 開發人員網站上的作業系統與執行個體類型架構說明。如需詳細資訊，請參閱 CUDA Toolkit Downloads。

有關執行個體類型架構或其他規格，請參閱《Amazon EC2 執行個體類型參考》中的加速運算規格。

本節說明如何在 Amazon Linux 2023 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。

如需 arm64-sbsa 命令，請參閱 CUDA Toolkit Downloads，然後選取套用至您的發行版本的選項。完成最終選擇後，顯示對應說明。

先決條件

安裝工具組與驅動程式前，執行下列命令，以確保您具備正確版本的核心標頭與開發套件。


[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y

下載工具組與驅動程式

選擇適用於您執行個體的安裝類型，並遵循相關步驟。

本機安裝與網路安裝的其餘步驟相同。

完成 CUDA 工具組安裝


[ec2-user ~]$ sudo dnf clean all
[ec2-user ~]$ sudo dnf install cuda-toolkit -y

安裝驅動程式的開放式核心模組版本


[ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y

安裝 GPUDirect Storage 與 Fabric Manager


[ec2-user ~]$ sudo dnf install nvidia-gds -y
[ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y

啟用 Fabric Manager 與驅動程式持久性


[ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable nvidia-persistenced

(僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。
1. 安裝 NVIDIA Link Subnet Manager 與 ibstat。
```
[ec2-user ~]$ sudo dnf install nvlink5
```
2. 啟用在啟動時自動載入 Infiniband 模組。
```
[ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
```
重新啟動執行個體
```
[ec2-user ~]$ sudo reboot
```

本節說明如何在 Ubuntu 24.04 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。

如需 arm64-sbsa 命令，請參閱 CUDA Toolkit Downloads，然後選取套用至您的發行版本的選項。完成最終選擇後，顯示對應說明。

先決條件

安裝工具組與驅動程式前，執行下列命令，以確保您具備正確版本的核心標頭與開發套件。


$ apt install linux-headers-$(uname -r)

下載工具組與驅動程式

選擇適用於您執行個體的安裝類型，並遵循相關步驟。

本機安裝與網路安裝的其餘步驟相同。

完成 CUDA 工具組安裝


$ sudo apt update
$ sudo apt install cuda-toolkit -y

安裝驅動程式的開放式核心模組版本
```
$ sudo apt install nvidia-open -y
```

安裝 GPUDirect Storage 與 Fabric Manager


$ sudo apt install nvidia-gds -y
$ sudo apt install nvidia-fabricmanager -y

啟用 Fabric Manager 與驅動程式持久性


$ sudo systemctl enable nvidia-fabricmanager
$ sudo systemctl enable nvidia-persistenced

(僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。
1. 安裝最新的 InfiniBand 特定裝置驅動程式和診斷公用程式。
```
$ sudo apt install linux-modules-extra-$(uname -r) -y
$ sudo apt install infiniband-diags -y
```
2. 安裝 NVIDIA Link Subnet Manager。
```
$ sudo apt install nvlsm -y
```
重新啟動執行個體
```
sudo reboot
```

更新路徑並新增下列環境變數。


$ export PATH=${PATH}:/usr/local/cuda-13.0/bin
$ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

若要在 Windows 上安裝 NVIDIA 驅動程序，請依照下列步驟操作：

開啟您下載驅動程式的所在資料夾，並啟動安裝檔案。依照指示安裝驅動程式，並視需要將執行個體重新開機。
使用 Device Manager 停用標有警告圖示的名為 Microsoft Basic Display Adapter 的顯示轉接器。安裝這些 Windows 功能：Media Foundation 和 Quality Windows Audio Video Experience (高品質 Windows 音訊/視訊體驗)。

重要
請勿停用名為 Microsoft Remote Display Adapter 的顯示轉接器。如果停用 Microsoft Remote Display Adapter，您的連線可能會中斷，並在重新開機後會嘗試連線至執行個體可能會失敗。
檢查裝置管理員，確認 GPU 是否正常運作。
若要達到 GPU 的最佳效能，請完成在 Amazon EC2 執行個體最佳化 GPU 設定中的最佳化步驟。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

使用 NVIDIA 驅動程式的 AMI

安裝 GRID 驅動程式

安裝 NVIDIA 公有驅動程式

P6-B200 和 P6-B300 執行個體類型考量事項

選項 1：僅安裝驅動程式

注意

選項 2：透過 CUDA 工具組安裝

先決條件

下載工具組與驅動程式

先決條件

下載工具組與驅動程式

重要