P5 インスタンスの使用を開始する - Amazon Elastic Compute Cloud

P5 インスタンスの使用を開始する

P5 インスタンスは、640 GB の高帯域幅 GPU メモリを搭載した 8 つの NVIDIA H100 GPU を提供します。これらは第 3 世代の AMD EPYC プロセッサを搭載し、2 TB のシステムメモリ、30 TB のローカル NVMe インスタンスストレージ、3,200 Gbps の集約ネットワーク帯域幅、および GPUDirect RDMA サポートを提供します。P5 インスタンスは Amazon EC2 UltraCluster テクノロジーもサポートしているため、EFA を使用してレイテンシーを低減し、ネットワークパフォーマンスを向上させることができます。

次の表に、p5.48xlarge 仕様の概要を示します。

vCPUs システムメモリ GPU GPU メモリ ネットワーク帯域幅 GPUDirect RDMA GPU ピアツーピア インスタンスストレージ
192 2 TiB 8 NVIDIA H100 GPU 640 GB HBM3 EFAv2 を使用した 3200 Gbps サポート対象 900 GB/秒 NVSwitch 8 x 3,800 GB NVMe SSD ボリューム
ソフトウェア設定

P5 インスタンスの使用を始める最も簡単な方法は、必要なすべてのソフトウェアが事前設定されている AWS Deep Learning AMI を使用してインスタンスを起動することです。P5 インスタンスで使用するための最新の AWS Deep Learning AMI については、「AWSDeep Learning Base GPU AMI (Ubuntu 20.04)」を参照してください。

P5 インスタンスで使用するカスタム AMI を構築する必要がある場合は、以下の最小ソフトウェアバージョンをインストールすることをお勧めします。

  • NVIDIA ドライバー 535.54.03 以降

  • CUDA 12.1 以降

  • NVIDIA GDRCopy 2.3 以降

  • EFA インストーラ 1.24.1 以降

  • NCCL 2.18.3 以降

  • aws-ofi-nccl プラグイン 1.7.2-aws 以降

また、より深い C ステートを使用しないようにインスタンスを設定することをお勧めします。詳細については、「深い C ステートの制限による高パフォーマンスと低レイテンシー」を参照してください。最新の AWS Deep Learning Base GPU AMI は、より深い C ステートを使用しないように事前設定されています。

Ubuntu 20.04 固有の推奨事項

Ubuntu 20.04 に関する以下の推奨事項は、起動時に想定外のインターフェイス名が付けられるのを防ぐのに役立ちます。

  • 以下のコマンドを実行して、systemd 245.4-4ubuntu3.19 以降かを確認してください。

    systemd --version
  • GRUB を設定したことを確認します。

    • /etc/default/grub 設定ファイルをテキストエディタで開きます。

    • GRUB_CMDLINE_LINUX_DEFAULT エントリを編集して net.naming-scheme=v247 を含めます。

    • sudo update-grub を実行してインスタンスを再起動します。

ネットワークと EFA 設定

P5 インスタンスは、複数の EFA インターフェイスを使用して 3200 Gbps のネットワーク帯域幅を提供します。P5 インスタンスは 32 枚のネットワークカードをサポートします。ネットワークカードごとに 1 つの EFA ネットワークインターフェイスを定義することをお勧めします。起動時にこれらのインターフェイスを設定するには、以下の設定をお勧めします。

  • ネットワークインターフェイス 0 の場合、デバイスインデックス 0 を指定する

  • 31 を介したネットワークインターフェイス 1 の場合、デバイスインデックス 1 を指定する

P5 インスタンスを EFA 用に設定する方法の詳細については、「P5 インスタンスと EFA の使用を開始する」を参照してください。