Erste Schritte mit P5-Instances - Amazon Elastic Compute Cloud

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erste Schritte mit P5-Instances

P5-Instances bieten 8 NVIDIA H100 GPUs mit 640 GB Speicher mit hoher Bandbreite. GPU Sie verfügen über AMD EPYC Prozessoren der 3. Generation und bieten 2 TB Systemspeicher, 30 TB lokalen NVMe Instance-Speicher, 3.200 Gbit/s aggregierte Netzwerkbandbreite und Support. GPUDirect RDMA P5-Instances unterstützen auch die EC2 UltraCluster Amazon-Technologie, die eine geringere Latenz und eine verbesserte Netzwerkleistung bietet. EFA

Die folgende Tabelle enthält eine Zusammenfassung der Spezifikationen von p5.48xlarge.

vCPUs Systemarbeitsspeicher GPUs GPUSpeicher Netzwerkbandbreite GPUDirect RDMA GPUPeer zu Peer Instance-Speicher
192 2 TiB 8 NVIDIA H 100 GPUs 640 GB HBM3 3200 Gbit/s mit EFAv2 Unterstützt 900 Gbit/s NVSwitch 8 x 3.800 GB-Volumen NVMe SSD
Softwarekonfiguration

Die einfachste Möglichkeit für die ersten Schritte mit P5-Instances besteht darin, eine Instance mit einem AWS Deep Learning AMIs zu starten, das mit der gesamten erforderlichen Software vorkonfiguriert ist. Die neuesten Informationen AWS Deep Learning AMIs zur Verwendung mit P5-Instances finden Sie in der AWS Deep Learning Base GPU AMI (Ubuntu 20.04).

Wenn Sie eine benutzerdefinierte Version AMI für die Verwendung mit P5-Instances erstellen müssen, empfehlen wir, mindestens die folgenden Softwareversionen zu installieren:

  • NVIDIATreiber 535.54.03 oder höher

  • CUDA12.1 oder später

  • NVIDIAGDRCopy2.3 oder später

  • EFAInstaller 1.24.1 oder höher

  • NCCL2.18.3 oder später

  • aws-ofi-nccl Plugin 1.7.2-aws oder höher

Außerdem empfiehlt es sich, die Instance so zu konfigurieren, dass keine tieferen Ruhezustände verwendet werden. Weitere Informationen finden Sie unter Hohe Leistung und niedrige Latenz durch Begrenzung tieferer C-States im Amazon Linux 2-Benutzerhandbuch. Die neueste Version von AWS Deep Learning Base GPU AMI ist so vorkonfiguriert, dass tiefere C-States nicht verwendet werden.

Spezifische Empfehlungen für Ubuntu 20.04

Die folgenden Empfehlungen für Ubuntu 20.04 tragen dazu bei, unvorhersehbare Schnittstellenbenennungen beim Booten zu verhindern:

  • Vergewissern Sie sich, dass Sie systemd 245.4-4ubuntu3.19 oder eine neuere Version verwenden, indem Sie den folgenden Befehl eingeben:

    systemd --version
  • Stellen Sie sicher, dass Sie Folgendes konfiguriert haben: GRUB

    • Öffnen Sie die /etc/default/grub-Konfigurationsdatei in einem Texteditor.

    • Bearbeiten Sie den GRUB_CMDLINE_LINUX_DEFAULT-Eintrag so, dass er net.naming-scheme=v247 einschließt.

    • Starten Sie Ihre Instance neu, indem Sie sudo update-grub ausführen.

Netzwerk und EFA Konfiguration

P5-Instances bieten über mehrere EFA Schnittstellen eine Netzwerkbandbreite von 3200 Gbit/s. P5-Instances unterstützen 32 Netzwerkkarten. Wir empfehlen, dass Sie eine einzige EFA Netzwerkschnittstelle pro Netzwerkkarte definieren. Um diese Schnittstellen beim Start zu konfigurieren, empfehlen sich die folgenden Einstellungen:

  • Für die Netzwerkschnittstelle 0 geben Sie den Geräteindex 0 an.

  • Für die Netzwerkschnittstellen 1 bis 31 geben Sie den Geräteindex 1 an.

Weitere Informationen zur Konfiguration Ihrer P5-Instanzen EFA finden Sie unterMaximieren Sie die Netzwerkbandbreite auf beschleunigten Recheninstanzen mit EFA.