

本文為英文版的機器翻譯版本，如內容有任何歧義或不一致之處，概以英文版為準。

# NVIDIA 驅動程式
<a name="nvidia-drivers"></a>

 Amazon Linux 2023 透過專用儲存庫提供 NVIDIA GPU 驅動程式和 CUDA 工具組套件。此儲存庫由 維護 AWS ，並透過 [Amazon Linux 安全中心 (ALAS)](https://alas.aws.amazon.com) 提供安全建議。

**Topics**
+ [關於 NVIDIA 儲存庫](#nvidia-drivers-about)
+ [啟用 NVIDIA 儲存庫](#nvidia-drivers-install-repo)
+ [安裝 NVIDIA 驅動程式](#nvidia-drivers-install-driver)
+ [安裝 CUDA 工具組](#nvidia-drivers-install-cuda)
+ [移除 NVIDIA 儲存庫](#nvidia-drivers-uninstall)

## 關於 NVIDIA 儲存庫
<a name="nvidia-drivers-about"></a>

 AL2023 NVIDIA 儲存庫會從適用於 [AL2023 的官方 NVIDIA CUDA 儲存庫](https://docs.nvidia.com/cuda/cuda-installation-guide-linux/#amazon-installation)鏡射套件。 在重新分發之前 AWS ， 會將 NVIDIA 軟體與 AL2023 發行候選版本搭配使用，並為此儲存庫中的套件提供安全建議。

 儲存庫適用於所有 AWS 商業區域，包括 GovCloud AWS (US) 區域和 AWS 中國區域。

 儲存庫提供適用於 x86\_64 架構的 NVIDIA Tesla （資料中心運算） 和圖形驅動程式。不包含用於虛擬顯示器和遠端工作站功能的 GRID 驅動程式。如需 GRID 驅動程式安裝，請參閱 * EC2 使用者指南*中的[安裝 NVIDIA 驅動程式](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/install-nvidia-driver.html)。

## 啟用 NVIDIA 儲存庫
<a name="nvidia-drivers-install-repo"></a>

 若要在 AL2023 執行個體上啟用 NVIDIA 儲存庫，請安裝 `nvidia-release`套件。這會將儲存庫組態和 GPG 金鑰新增至您的系統。

```
[ec2-user ~]$ sudo dnf install nvidia-release -y
```

確認已新增儲存庫：

```
[ec2-user ~]$ dnf repolist
```

您應該會在清單中看到儲存`amazonlinux-nvidia`庫。

```
repo id                    repo name                                                status
amazonlinux                Amazon Linux 2023 repository                             enabled
amazonlinux-nvidia         Amazon Linux 2023 NVIDIA repository                      enabled
```

## 安裝 NVIDIA 驅動程式
<a name="nvidia-drivers-install-driver"></a>

 啟用儲存庫後，您可以使用 安裝 NVIDIA 驅動程式套件`dnf`。

1. 安裝執行中核心的核心標頭和開發套件：

   ```
   [ec2-user ~]$ sudo dnf install kernel-devel-$(uname -r) kernel-headers-$(uname -r) -y
   ```

1. 安裝 NVIDIA 驅動程式：

   ```
   [ec2-user ~]$ sudo dnf install nvidia-driver-cuda -y
   ```

1. 重新啟動執行個體：

   ```
   [ec2-user ~]$ sudo reboot
   ```

1. 重新啟動後，請確認驅動程式已載入：

   ```
   [ec2-user ~]$ nvidia-smi
   ```

## 安裝 CUDA 工具組
<a name="nvidia-drivers-install-cuda"></a>

 安裝 NVIDIA 驅動程式後，您可以安裝 CUDA 工具組：

```
[ec2-user ~]$ sudo dnf install cuda-toolkit -y
```

**注意**  
 對於需要 NVIDIA Fabric Manager 的 GPU 執行個體 （例如 P4d、P5 和 P6 執行個體類型），請安裝並啟用其他套件：  

```
[ec2-user ~]$ DRV_BRANCH="$(modinfo nvidia | grep "^version:" | tr -s ' ' | cut -d ' ' -f 2)"
[ec2-user ~]$ sudo dnf install nvidia-fabricmanager-${DRV_BRANCH} -y
[ec2-user ~]$ sudo systemctl enable --now nvidia-fabricmanager
[ec2-user ~]$ sudo systemctl enable --now nvidia-persistenced
```
確認 Fabric Manager 正在執行，且 GPUs 透過 NVSwitch 連接：  

```
[ec2-user ~]$ sudo systemctl status nvidia-fabricmanager
[ec2-user ~]$ nvidia-smi topo -m
```
在拓撲矩陣中，GPUs 之間的連線應會顯示`NV`連結，指出作用中的 NVSwitch 連線。

 如需在 EC2 GPU 執行個體上安裝 NVIDIA 驅動程式的詳細說明，包括執行個體類型特定需求，請參閱 * EC2 使用者指南*中的[安裝 NVIDIA 公有驅動程式](https://docs.aws.amazon.com/AWSEC2/latest/UserGuide/public-nvidia-driver.html)。

## 移除 NVIDIA 儲存庫
<a name="nvidia-drivers-uninstall"></a>

 若要從系統中移除 NVIDIA 儲存庫組態：

```
[ec2-user ~]$ sudo dnf remove nvidia-release -y
```

**重要**  
 移除儲存庫組態不會移除任何已安裝在系統上的 NVIDIA 套件。