開始使用適用於 Linux 的 P5 執行個體 - Amazon Elastic Compute Cloud

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

開始使用適用於 Linux 的 P5 執行個體

P5 執行個體提供 8 個上NVIDIA半球,GPUs以及 640 GB 的高頻GPU寬記憶體。它們具有第三代AMDEPYC處理器,並提供 2 TB 的系統內存,30 TB 的本地NVMe實例存儲,3,200 Gbps 聚合網絡帶寬和GPUDirectRDMA支持。P5 執行個體也支援 Amazon EC2 UltraCluster 技術,可降低延遲並改善使用EFA的網路效能。

如下資料表提供 p5.48xlarge 規格的摘要。

vCPUs 系統記憶體 GPUs GPU記憶體 網路頻寬 GPUDirect RDMA GPU點對點 執行個體儲存體
192 2 TiB 8 NVIDIA H100 GPUs 640 GB HBM3 三百百吉比斯 EFAv2 支援 每秒 900 GB NVSwitch 8 x 800 GB 磁碟NVMeSSD區
軟體組態

開始使用 P5 執行個體的最簡單方法是使用已針對所有必要軟體預先設定的  AWS Deep Learning AMI  啟動執行個體。如需與 P5 執行個體搭配使用的最新 AWS Deep Learning AMI 資訊,請參閱AWS 深度學習基礎 GPU AMI (Ubuntu 20.04)。

如果您需要建立自AMI訂以搭配 P5 執行個體使用,建議您安裝下列最低軟體版本:

  • NVIDIA驅動程式

  • CUDA12.1 或更高版本

  • NVIDIAGDRCopy2.3 或更高版本

  • EFA安裝程式 1.24.1 或更新版本

  • NCCL2.18.3 或更高版本

  • aws-ofi-nccl 插件 1.7.2-AWS 或更高版本

我們也建議您將執行個體設定為不使用深層的 C-states。如需詳細資訊,請參閱 Amazon Linux 2 使用者指南中的限制更深 C 狀態的高效能和低延遲。最新的 AWS 深度學習基礎GPUAMI已預先設定為不使用更深層的 C 狀態。

Ubuntu 20.04 具體建議

下列有關 Ubuntu 20.04 的建議有助於避免開機時出現無法預期的介面命名方式:

  • 確保您正在執行 systemd 245.4-4ubuntu3.19,或稍後使用以下命令:

    systemd --version
  • 確定您已設定GRUB:

    • 在文字編輯器中開啟 /etc/default/grub 組態檔案。

    • 編輯 GRUB_CMDLINE_LINUX_DEFAULT 項目,以便包含 net.naming-scheme=v247

    • 執行 sudo update-grub 以重新啟動執行個體。

網路與EFA組態

P5 執行個體使用多重介面可提供 3200 Gbps 的網路頻寬。EFAP5 執行個體支援 32 個網路卡。我們建議您為每張EFA網路卡定義一個網路介面卡。若要在啟動時設定這些介面,我們建議您進行下列設定:

  • 對於網路介面 0,指定裝置索引 0

  • 對於網路介面 1 至 31,指定裝置索引 1

如需如何設定 P5 執行個體的詳細資訊,EFA請參閱開始使用 Amazon EC2 P5 執行個體和彈性網狀架構配接器