安裝 NVIDIA 公有驅動程式 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

安裝 NVIDIA 公有驅動程式

如果 中所述 AWS Marketplace AMIs 使用包含 NVIDIA 驅動程式的 AMI不符合您的使用案例,您可以安裝公有驅動程式並自帶授權。安裝選項包含下列項目:

 

P6-B200 和 P6-B300 執行個體類型考量事項

P6-B200 和 P6-B300 平台是唯一的,因為它們以 PCIe 裝置的形式向執行個體公開 Mellanox ConnectX 網路介面卡 NICs)。這些 NICs 不會做為一般網路介面,而是做為 NVSwitch 橋接器,提供用於初始化和設定 NVFabric 的控制路徑,這是 GPU 互連的 NVLink 拓撲。

若要完整初始化系統,NVIDIA Fabric Manager 必須設定 NVFabric 並建立 NVSwitch 拓撲。如此一來,InfiniBand 核心模組就能與 Mellanox ConnectX NICs通訊。

NVIDIA Fabric Manager 已包含於 CUDA 工具組中。我們建議為此執行個體類型使用 選項 2:透過 CUDA 工具組安裝

選項 1:僅安裝驅動程式

若要安裝特定驅動程式,請登入您的執行個體,並從 http://www.nvidia.com/Download/Find.aspx:// 下載執行個體類型的 64 位元 NVIDIA 公有驅動程式。對於產品類型產品系列產品,請使用下表中顯示的選項。

然後遵循 NVIDIA 驅動程式安裝指南中的本機儲存庫安裝說明。 https://docs.nvidia.com/datacenter/tesla/driver-installation-guide/index.html

注意

P6-B200 和 P6-B300 執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。如需進一步資訊,請參閱 選項 2:透過 CUDA 工具組安裝 中適用於您的 Linux 發行版本的說明。

執行個體 產品類型 產品系列 產品 最低驅動程式版本
G3 Tesla M-Class M60 --
G4dn Tesla T 系列 T4 --
G5 Tesla A 系列 A10 470.00 或更新版本
G5g1 Tesla T 系列 NVIDIA T4G 470.82.01 或更新版本
G6 Tesla L 系列 L4 525.0 或更新版本
G6e Tesla L 系列 L40S 535.0 或更新版本
Gr6 Tesla L 系列 L4 525.0 或更新版本
P2 Tesla K 系列 K80 --
P3 Tesla V 系列 V100 --
P4d Tesla A 系列 A100 --
P4de Tesla A 系列 A100 --
P5 Tesla H 系列 H100 530 或更新版本
P5e Tesla H 系列 H200 550 或更新版本
P5en Tesla H 系列 H200 550 或更新版本
P6-B2002 Tesla HGX 系列 B200 570 或更新版本
P6e-GB200 Tesla HGX 系列 B200 570 或更新版本
P6-B3002 Tesla HGX 系列 B300 580 或更新版本

1 G5g 執行個體的作業系統為 Linux aarch64。

2 對於 P6-B200 和 P6-B300 執行個體類型,設定 NVIDIA Fabric Manager 有額外的安裝需求。

選項 2:透過 CUDA 工具組安裝

安裝說明會因作業系統而略有不同。若要使用 NVIDIA CUDA 工具組在您的執行個體上安裝公有驅動程式,請遵循適用於您的執行個體作業系統的說明。若您的執行個體作業系統未列於此,請遵循 NVIDIA 開發人員網站上的作業系統與執行個體類型架構說明。如需詳細資訊,請參閱 CUDA Toolkit Downloads

有關執行個體類型架構或其他規格,請參閱《Amazon EC2 執行個體類型參考》中的加速運算規格。

本節說明如何在 Amazon Linux 2023 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。

如需 arm64-sbsa 命令,請參閱 CUDA Toolkit Downloads,然後選取套用至您的發行版本的選項。完成最終選擇後,顯示對應說明。

先決條件

安裝工具組與驅動程式前,執行下列命令,以確保您具備正確版本的核心標頭與開發套件。

[ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
下載工具組與驅動程式

選擇適用於您執行個體的安裝類型,並遵循相關步驟。

RPM local installation

您可遵循這些說明,將 CUDA 工具組安裝程式儲存庫套件下載至您的執行個體,然後解壓縮並註冊指定套件。

若要在 NVIDIA 開發人員網站上檢視說明,請參閱 CUDA Toolkit Downloads

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm [ec2-user ~]$ sudo rpm -i cuda-repo-amzn2023-13-0-local-13.0.0_580.65.06-1.x86_64.rpm
RPM network installation

您可遵循這些說明,在您執行個體的套件管理工具中註冊 CUDA 儲存庫。執行安裝步驟時,套件管理工具僅會下載必要的套件。

若要在 NVIDIA 開發人員網站上檢視說明,請參閱 CUDA Toolkit Downloads

[ec2-user ~]$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb [ec2-user ~]$ sudo dpkg -i cuda-keyring_1.1-1_all.deb

本機安裝與網路安裝的其餘步驟相同。

  1. 完成 CUDA 工具組安裝

    [ec2-user ~]$ sudo dnf clean all [ec2-user ~]$ sudo dnf install cuda-toolkit -y
  2. 安裝驅動程式的開放式核心模組版本

    [ec2-user ~]$ sudo dnf module install nvidia-driver:open-dkms -y
  3. 安裝 GPUDirect Storage 與 Fabric Manager

    [ec2-user ~]$ sudo dnf install nvidia-gds -y [ec2-user ~]$ sudo dnf install nvidia-fabric-manager -y
  4. 啟用 Fabric Manager 與驅動程式持久性

    [ec2-user ~]$ sudo systemctl enable nvidia-fabricmanager [ec2-user ~]$ sudo systemctl enable nvidia-persistenced
  5. (僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。

    1. 安裝 NVIDIA Link Subnet Manager 與 ibstat

      [ec2-user ~]$ sudo dnf install nvlink5
    2. 啟用在啟動時自動載入 Infiniband 模組。

      [ec2-user ~]$ echo "ib_umad" | sudo tee -a /etc/modules-load.d/modules.conf
  6. 重新啟動執行個體

    [ec2-user ~]$ sudo reboot

本節說明如何在 Ubuntu 24.04 執行個體上安裝 NVIDIA CUDA 工具組。本節中的命令範例基於 x86_64 架構。

如需 arm64-sbsa 命令,請參閱 CUDA Toolkit Downloads,然後選取套用至您的發行版本的選項。完成最終選擇後,顯示對應說明。

先決條件

安裝工具組與驅動程式前,執行下列命令,以確保您具備正確版本的核心標頭與開發套件。

$ apt install linux-headers-$(uname -r)
下載工具組與驅動程式

選擇適用於您執行個體的安裝類型,並遵循相關步驟。

RPM local installation

您可遵循這些說明,將 CUDA 工具組安裝程式儲存庫套件下載至您的執行個體,然後解壓縮並註冊指定套件。

若要在 NVIDIA 開發人員網站上檢視說明,請參閱 CUDA Toolkit Downloads

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin $ sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600 $ wget https://developer.download.nvidia.com/compute/cuda/13.0.0/local_installers/cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo dpkg -i cuda-repo-ubuntu2404-13-0-local_13.0.0-580.65.06-1_amd64.deb $ sudo cp /var/cuda-repo-ubuntu2404-13-0-local/cuda-*-keyring.gpg /usr/share/keyrings/
RPM network installation

您可遵循這些說明,在您執行個體的套件管理工具中註冊 CUDA 儲存庫。執行安裝步驟時,套件管理工具僅會下載必要的套件。

若要在 NVIDIA 開發人員網站上檢視說明,請參閱 CUDA Toolkit Downloads

$ wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb $ sudo dpkg -i cuda-keyring_1.1-1_all.deb

本機安裝與網路安裝的其餘步驟相同。

  1. 完成 CUDA 工具組安裝

    $ sudo apt update $ sudo apt install cuda-toolkit -y
  2. 安裝驅動程式的開放式核心模組版本

    $ sudo apt install nvidia-open -y
  3. 安裝 GPUDirect Storage 與 Fabric Manager

    $ sudo apt install nvidia-gds -y $ sudo apt install nvidia-fabricmanager -y
  4. 啟用 Fabric Manager 與驅動程式持久性

    $ sudo systemctl enable nvidia-fabricmanager $ sudo systemctl enable nvidia-persistenced
  5. (僅限 P6-B200 和 P6-B300) 這些執行個體類型需要安裝和設定與 NVIDIA CUDA Toolkit 隨附的其他套件。

    1. 安裝最新的 InfiniBand 特定裝置驅動程式和診斷公用程式。

      $ sudo apt install linux-modules-extra-$(uname -r) -y $ sudo apt install infiniband-diags -y
    2. 安裝 NVIDIA Link Subnet Manager。

      $ sudo apt install nvlsm -y
  6. 重新啟動執行個體

    sudo reboot
  7. 更新路徑並新增下列環境變數。

    $ export PATH=${PATH}:/usr/local/cuda-13.0/bin $ export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:/usr/local/cuda-13.0/lib64

若要在 Windows 上安裝 NVIDIA 驅動程序,請依照下列步驟操作:

  1. 開啟您下載驅動程式的所在資料夾,並啟動安裝檔案。依照指示安裝驅動程式,並視需要將執行個體重新開機。

  2. 使用 Device Manager 停用標有警告圖示的名為 Microsoft Basic Display Adapter 的顯示轉接器。安裝這些 Windows 功能:Media FoundationQuality Windows Audio Video Experience (高品質 Windows 音訊/視訊體驗)。

    重要

    請勿停用名為 Microsoft Remote Display Adapter 的顯示轉接器。如果停用 Microsoft Remote Display Adapter,您的連線可能會中斷,並在重新開機後會嘗試連線至執行個體可能會失敗。

  3. 檢查裝置管理員,確認 GPU 是否正常運作。

  4. 若要達到 GPU 的最佳效能,請完成在 Amazon EC2 執行個體最佳化 GPU 設定中的最佳化步驟。