本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
開始使用適用於 Linux 的 P5 執行個體
P5 執行個體提供 8 個上NVIDIA半球,GPUs以及 640 GB 的高頻GPU寬記憶體。它們具有第三代AMDEPYC處理器,並提供 2 TB 的系統內存,30 TB 的本地NVMe實例存儲,3,200 Gbps 聚合網絡帶寬和GPUDirectRDMA支持。P5 執行個體也支援 Amazon EC2 UltraCluster 技術,可降低延遲並改善使用EFA的網路效能。
如下資料表提供 p5.48xlarge
規格的摘要。
vCPUs | 系統記憶體 | GPUs | GPU記憶體 | 網路頻寬 | GPUDirect RDMA | GPU點對點 | 執行個體儲存體 |
---|---|---|---|---|---|---|---|
192 | 2 TiB | 8 NVIDIA H100 GPUs | 640 GB HBM3 | 三百百吉比斯 EFAv2 | 支援 | 每秒 900 GB NVSwitch | 8 x 800 GB 磁碟NVMeSSD區 |
軟體組態
開始使用 P5 執行個體的最簡單方法是使用已針對所有必要軟體預先設定的 AWS Deep Learning AMI
啟動執行個體。如需與 P5 執行個體搭配使用的最新 AWS Deep Learning AMI 資訊,請參閱AWS 深度學習基礎 GPU AMI (Ubuntu 20.04
如果您需要建立自AMI訂以搭配 P5 執行個體使用,建議您安裝下列最低軟體版本:
-
NVIDIA驅動程式
-
CUDA12.1 或更高版本
-
NVIDIAGDRCopy2.3 或更高版本
-
EFA安裝程式 1.24.1 或更新版本
-
NCCL2.18.3 或更高版本
-
aws-ofi-nccl 插件 1.7.2-AWS 或更高版本
我們也建議您將執行個體設定為不使用深層的 C-states。如需詳細資訊,請參閱 Amazon Linux 2 使用者指南中的限制更深 C 狀態的高效能和低延遲。最新的 AWS 深度學習基礎GPUAMI已預先設定為不使用更深層的 C 狀態。
Ubuntu 20.04 具體建議
下列有關 Ubuntu 20.04 的建議有助於避免開機時出現無法預期的介面命名方式:
-
確保您正在執行
systemd 245.4-4ubuntu3.19
,或稍後使用以下命令:systemd --version
-
確定您已設定GRUB:
-
在文字編輯器中開啟
/etc/default/grub
組態檔案。 -
編輯
GRUB_CMDLINE_LINUX_DEFAULT
項目,以便包含net.naming-scheme=v247
。 -
執行
sudo update-grub
以重新啟動執行個體。
-
網路與EFA組態
P5 執行個體使用多重介面可提供 3200 Gbps 的網路頻寬。EFAP5 執行個體支援 32 個網路卡。我們建議您為每張EFA網路卡定義一個網路介面卡。若要在啟動時設定這些介面,我們建議您進行下列設定:
-
對於網路介面
0
,指定裝置索引0
-
對於網路介面
1
至31
,指定裝置索引1
如需如何設定 P5 執行個體的詳細資訊,EFA請參閱開始使用 Amazon EC2 P5 執行個體和彈性網狀架構配接器。