Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe Schritt 2: Starten einer temporären Instance Schritt 3: Installieren der Nvidia-GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN Schritt 4: Installieren der GDRCopy Schritt 5: Installieren der EFA-Software Schritt 6: Installieren der NCCL Schritt 7: Installieren Sie das Plugin aws-ofi-nccl Schritt 8: Installieren der NCCL-Tests Schritt 9: Testen der EFA- und NCCL-Konfiguration Schritt 10: Installieren der Machine-Learning-Anwendungen Schritt 11: Erstellen eines EFA- und NCCL-konformen AMI Schritt 12: Beenden der temporären Instance Schritt 13: Starten von EFA- und NCCL-konformen Instances in einer Cluster-Placement-Gruppe Schritt 14: Aktivieren von passwortlosem SSH

Erste Schritte mit EFA und NCCL

Die NVIDIA Collective Communications Library (NCCL) ist eine Bibliothek kollektiver Standardkommunikationsroutinen für mehrere GPUs über einen oder mehrere Knoten. Die NCCL kann zusammen mit EFA, libfabric und MPI verwendet werden, um verschiedene Machine-Learning-Workloads zu unterstützen. Weitere Informationen finden Sie auf der NCCL-Website.

Die folgenden Schritte helfen Ihnen bei den ersten Schritten mit EFA und NCCL mithilfe eines Basis-AMI für eines der unterstützten Betriebssysteme.

Anmerkung

Nur die Instance-Typen p3dn.24xlarge, p4d.24xlarge und p5.48xlarge werden unterstützt.
Nur Basis-AMIs von Amazon Linux 2 und Ubuntu 20.04/22.04 werden unterstützt.
Die NCCL wird erst ab Version 2.4.2 mit EFA unterstützt.
Weitere Informationen zum Ausführen von Machine-Learning-Workloads mit EFA und NCCL unter Verwendung von finden Sie unter AWS Deep Learning AMI Using EFA on the DLAMI im Developer Guide.AWS Deep Learning AMI

Schritte

Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe
Schritt 2: Starten einer temporären Instance
Schritt 3: Installieren der Nvidia-GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN
Schritt 4: Installieren der GDRCopy
Schritt 5: Installieren der EFA-Software
Schritt 6: Installieren der NCCL
Schritt 7: Installieren Sie das Plugin aws-ofi-nccl
Schritt 8: Installieren der NCCL-Tests
Schritt 9: Testen der EFA- und NCCL-Konfiguration
Schritt 10: Installieren der Machine-Learning-Anwendungen
Schritt 11: Erstellen eines EFA- und NCCL-konformen AMI
Schritt 12: Beenden der temporären Instance
Schritt 13: Starten von EFA- und NCCL-konformen Instances in einer Cluster-Placement-Gruppe
Schritt 14: Aktivieren von passwortlosem SSH

Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe

Ein EFA erfordert eine Sicherheitsgruppe, die allen ein- und ausgehenden Datenverkehr von und zur Sicherheitsgruppe zulässt. Mit dem folgenden Verfahren wird eine Sicherheitsgruppe erstellt, die den gesamten ein- und ausgehenden Datenverkehr der Gruppe sowie eingehenden SSH-Datenverkehr von jeder IPv4-Adresse zwecks SSH-Konnektivität zulässt.

Wichtig

Diese Sicherheitsgruppe dient nur zu Testzwecken. Für Produktionsumgebungen sollten Sie eine Regel für eingehenden SSH-Datenverkehr erstellen, die Datenverkehr nur von der IP-Adresse zulässt, von der aus Sie eine Verbindung herstellen, z. B. die IP-Adresse Ihres Computers oder einen Bereich von IP-Adressen im lokalen Netzwerk.

Weitere Szenarien finden Sie unter Sicherheitsgruppenregeln für verschiedene Anwendungsfälle.

So erstellen Sie eine EFA-fähige Sicherheitsgruppe:

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie im Navigationsbereich Security Groups (Sicherheitsgruppen) und anschließend Create Security Group (Sicherheitsgruppe erstellen) aus.
Führen Sie im Fenster Create Security Group Folgendes aus:
1. Geben Sie für Security group name (Name der Sicherheitsgruppe) einen beschreibenden Namen für die Sicherheitsgruppe ein, wie etwa EFA-enabled security group.
2. (Optional:) Geben Sie unter Description (Beschreibung) eine kurze Beschreibung der Sicherheitsgruppe ein.
3. Wählen Sie bei VPC die VPC aus, in der Sie Ihre EFA-fähigen Instances starten möchten.
4. Wählen Sie Sicherheitsgruppe erstellen aus.
Wählen Sie die von Ihnen erstellte Sicherheitsgruppe aus und kopieren Sie dann auf der Registerkarte Details die Security group ID (Sicherheitsgruppen-ID).
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit inbound rules (Eingangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
1. Wählen Sie Regel hinzufügen aus.
2. Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
3. Wählen Sie bei Source type (Quellentyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
4. Wählen Sie Regel hinzufügen aus.
5. Wählen Sie unter Typ die Option SSH aus.
6. Wählen Sie unter Source (Quelle) die Option Anywhere-IPv4 (Alle IPv4) aus.
7. Wählen Sie Save rules (Regeln speichern) aus.
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit outbound rules (Ausgangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
1. Wählen Sie Regel hinzufügen aus.
2. Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
3. Wählen Sie bei Destination type (Zieltyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
4. Wählen Sie Save rules (Regeln speichern) aus.

Schritt 2: Starten einer temporären Instance

Starten Sie eine temporäre Instance, die Sie verwenden können, um die EFA-Softwarekomponenten zu installieren und zu konfigurieren. Sie können mit dieser Instance ein EFA-aktiviertes AMI erstellen, von dem Sie Ihre EFA-aktivierten Instances starten können.

So starten Sie eine temporäre Instance

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie im Navigationsbereich Instances und dann Instances starten aus, um den Launch Instance Wizard zu öffnen.
(Optional) Geben Sie im Bereich Name and tags (Name und Tags) einen Namen für die Instance an, z. B. EFA-instance. Der Name wird der Instance als Ressourcen-Tag (Name=EFA-instance) zugewiesen.
Wählen Sie im Bereich Application and OS Images (Anwendungs- und Betriebssystem-Images) ein AMI für eines der unterstützten Betriebssysteme aus. Nur Amazon Linux 2, Ubuntu 20.04 und Ubuntu 22.04 werden unterstützt.
Wählen Sie im Bereich Instance-Typ entweder p3dn.24xlarge, p4d.24xlarge oder p5.48xlarge aus.
Wählen Sie im Bereich Key pair (Schlüsselpaar) das Schlüsselpaar aus, das für die Instance verwendet werden soll.
Wählen Sie im Bereich Network settings (Netzwerkeinstellungen) Edit (Bearbeiten) aus und führen Sie dann Folgendes aus:
1. Wählen Sie unter Subnetz das Subnetz aus, in dem die Instance gestartet werden soll. Wenn Sie kein Subnetz auswählen, können Sie die Instance nicht für EFA aktivieren.
2. Wählen Sie bei Firewall (security groups) Firewall (Sicherheitsgruppen) Select existing security group (Vorhandene Sicherheitsgruppe auswählen) und dann die Sicherheitsgruppe aus, die Sie im vorherigen Schritt erstellt haben.
3. Erweitern Sie den Bereich Advanced network configuration (Erweiterte Netzwerkkonfiguration) und wählen Sie bei Elastic Fabric Adapter Enable (Aktivieren) aus.
Konfigurieren Sie im Bereich Storage (Speicher) die Volumes nach Bedarf.

Anmerkung
Sie müssen zusätzliche 10 bis 20 GiB Speicher für das Nvidia CUDA Toolkit bereitstellen. Wenn Sie nicht genügend Speicherplatz bereitstellen, erhalten Sie einen insufficient disk space-Fehler beim Versuch, die Nvidia-Treiber und das CUDA-Toolkit zu installieren.
Wählen Sie im Bereich Summary (Zusammenfassung) rechts Launch instance (Instance starten) aus.

Schritt 3: Installieren der Nvidia-GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Amazon Linux 2

Installieren der Nvidia GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Um sicherzustellen, dass alle Ihre Softwarepakete aktuell sind, führen Sie ein schnelles Softwareupdate auf Ihrer Instance aus.
```
$ sudo yum upgrade -y && sudo reboot
```
Stellen Sie nach dem Neustart der Instance erneut eine Verbindung dazu her.
Installieren Sie die Dienstprogramme, die zum Installieren der Nvidia GPU-Treiber und des Nvidia CUDA-Toolkits benötigt werden.
```
$ sudo yum groupinstall 'Development Tools' -y
```

Deaktivieren Sie die nouveau-Open-Source-Treiber.

Installieren Sie die erforderlichen Dienstprogramme und das Kernel-Header-Paket für Ihre derzeit ausgeführte Kernel-Version.
```
$ sudo yum install -y wget kernel-devel-$(uname -r) kernel-headers-$(uname -r)
```

Fügen Sie nouveau der Verweigerungsliste /etc/modprobe.d/blacklist.conf hinzu.


$ cat << EOF | sudo tee --append /etc/modprobe.d/blacklist.conf
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv
EOF

Hängen Sie GRUB_CMDLINE_LINUX="rdblacklist=nouveau" an die grub-Datei an und erstellen Sie die Grub-Konfiguration neu.


$ echo 'GRUB_CMDLINE_LINUX="rdblacklist=nouveau"' | sudo tee -a /etc/default/grub \
&& sudo grub2-mkconfig -o /boot/grub2/grub.cfg

Starten Sie die Instance neu und stellen Sie die Verbindung zur Instance wieder her.
Vorbereiten der erforderlichen Repositorys
1. Installieren Sie das EPEL-Respository für DKMS und aktivieren Sie alle optionalen Repositorys für Ihre Linux-Distribution.
```
$ sudo yum install -y https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
```
2. Installieren Sie den öffentlichen GPG-Schlüssel des CUDA-Repositorys.
```
$ distribution='rhel7'
```
3. Richten Sie das CUDA Netzwerk-Repository ein und aktualisieren Sie den Repository-Cache.
```
$ ARCH=$( /bin/arch ) \
&& sudo yum-config-manager --add-repo http://developer.download.nvidia.com/compute/cuda/repos/$distribution/${ARCH}/cuda-$distribution.repo \
&& sudo yum clean expire-cache
```
4. (Nur Kernel-Version 5.10) Führen Sie diese Schritte nur aus, wenn Sie Amazon Linux 2 mit Kernel-Version 5.10 nutzen. Überspringen Sie dieses Schritte, wenn Sie Amazon Linux 2 mit Kernel-Version 4.12 verwenden. Um Ihre Kernel-Version zu überprüfen, führen Sie uname -r aus.
  1. Erstellen Sie die Nvidia-Treiberkonfigurationsdatei mit dem Namen /etc/dkms/nvidia.conf.
```
$ sudo mkdir -p /etc/dkms \
&& echo "MAKE[0]=\"'make' -j2 module SYSSRC=\${kernel_source_dir} IGNORE_XEN_PRESENCE=1 IGNORE_PREEMPT_RT_PRESENCE=1 IGNORE_CC_MISMATCH=1 CC=/usr/bin/gcc10-gcc\"" | sudo tee /etc/dkms/nvidia.conf
```
  2. (Nur p4d.24xlarge und p5.48xlarge) Kopieren Sie die Konfigurationsdatei des Nvidia-Treibers.
```
$ sudo cp /etc/dkms/nvidia.conf /etc/dkms/nvidia-open.conf
```

Installieren Sie die Nvidia-GPU-Treiber, das NVIDIA CUDA-Toolkit und cuDNN.

p3dn.24xlarge


$ sudo yum clean all \
&& sudo yum -y install kmod-nvidia-latest-dkms nvidia-driver-latest-dkms \
&& sudo yum -y install cuda-drivers-fabricmanager cuda libcudnn8-devel

p4d.24xlarge und p5.48xlarge


$ sudo yum clean all \
&& sudo yum -y install kmod-nvidia-open-dkms nvidia-driver-latest-dkms \
&& sudo yum -y install cuda-drivers-fabricmanager cuda libcudnn8-devel

Starten Sie die Instance neu und stellen Sie die Verbindung zur Instance wieder her.
(Nur p4d.24xlarge und p5.48xlarge) Starten Sie den NVIDIA Fabric Manager Service und stellen Sie sicher, dass er beim Start der Instance automatisch gestartet wird. Nvidia Fabric Manager ist für das NV Switch Management erforderlich.
```
$ sudo systemctl enable nvidia-fabricmanager && sudo systemctl start nvidia-fabricmanager
```
Stellen Sie sicher, dass die CUDA-Pfade bei jedem Start der Instance festgelegt werden.
- Fügen Sie für Bash-Shells die folgenden Anweisungen zu /home/username/.bashrc und /home/username/.bash_profile hinzu.
```
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
```
- Fügen Sie für tcsh-Shells die folgenden Anweisungen zu /home/username/.cshrc hinzu.
```
setenv PATH=/usr/local/cuda/bin:$PATH
setenv LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
```
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass die Nvidia GPU-Treiber funktionieren.
```
$ nvidia-smi -q | head
```
Der Befehl sollte Informationen zu Nvidia-GPUs, Nvidia GPU-Treibern und zum Nvidia CUDA-Toolkit zurückgeben.

Ubuntu 20.04/22.04

Installieren der Nvidia GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Um sicherzustellen, dass alle Ihre Softwarepakete aktuell sind, führen Sie ein schnelles Softwareupdate auf Ihrer Instance aus.
```
$ sudo apt-get update && sudo apt-get upgrade -y
```
Installieren Sie die Dienstprogramme, die zum Installieren der Nvidia GPU-Treiber und des Nvidia CUDA-Toolkits benötigt werden.
```
$ sudo apt-get update && sudo apt-get install build-essential -y
```
Um den Nvidia GPU-Treiber verwenden zu können, müssen Sie zunächst die nouveau-Open-Source-Treiber deaktivieren.
1. Installieren Sie die erforderlichen Dienstprogramme und das Kernel-Header-Paket für Ihre derzeit ausgeführte Kernel-Version.
```
$ sudo apt-get install -y gcc make linux-headers-$(uname -r)
```
2. Fügen Sie nouveau der Verweigerungsliste /etc/modprobe.d/blacklist.conf hinzu.
```
$ cat << EOF | sudo tee --append /etc/modprobe.d/blacklist.conf
blacklist vga16fb
blacklist nouveau
blacklist rivafb
blacklist nvidiafb
blacklist rivatv
EOF
```
3. Öffnen Sie /etc/default/grub mit dem bevorzugten Texteditor und fügen Sie Folgendes hinzu.
```
GRUB_CMDLINE_LINUX="rdblacklist=nouveau"
```
4. Erstellen Sie die neue Grub-Konfiguration.
```
$ sudo update-grub
```
Starten Sie die Instance neu und stellen Sie die Verbindung zur Instance wieder her.

Fügen Sie das CUDA-Repository hinzu und installieren Sie die Nvidia-GPU-Treiber, das NVIDIA-CUDA-Toolkit und cuDNN.

p3dn.24xlarge


$ sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu2004/x86_64/7fa2af80.pub \
&& wget -O /tmp/deeplearning.deb http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu2004/x86_64/nvidia-machine-learning-repo-ubuntu2004_1.0.0-1_amd64.deb \
&& sudo dpkg -i /tmp/deeplearning.deb \
&& wget -O /tmp/cuda.pin https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin \
&& sudo mv /tmp/cuda.pin /etc/apt/preferences.d/cuda-repository-pin-600 \
&& sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub \
&& sudo add-apt-repository 'deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /' \
&& sudo apt update \
&& sudo apt install nvidia-dkms-535 \
&& sudo apt install -o Dpkg::Options::='--force-overwrite' cuda-drivers-535 cuda-toolkit-12-3 libcudnn8 libcudnn8-dev -y

p4d.24xlarge und p5.48xlarge


$ sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu2004/x86_64/7fa2af80.pub \
&& wget -O /tmp/deeplearning.deb http://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu2004/x86_64/nvidia-machine-learning-repo-ubuntu2004_1.0.0-1_amd64.deb \
&& sudo dpkg -i /tmp/deeplearning.deb \
&& wget -O /tmp/cuda.pin https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin \
&& sudo mv /tmp/cuda.pin /etc/apt/preferences.d/cuda-repository-pin-600 \
&& sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/3bf863cc.pub \
&& sudo add-apt-repository 'deb http://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /' \
&& sudo apt update \
&& sudo apt install nvidia-kernel-open-535 \
&& sudo apt install -o Dpkg::Options::='--force-overwrite' cuda-drivers-535 cuda-toolkit-12-3 libcudnn8 libcudnn8-dev -y

Starten Sie die Instance neu und stellen Sie die Verbindung zur Instance wieder her.
(Nur p4d.24xlarge und p5.48xlarge) Installieren Sie den NVIDIA Fabric Manager.
1. Sie müssen die Version von Nvidia Fabric Manager installieren, die mit der Version des Nvidia-Kernelmoduls übereinstimmt, die Sie im vorherigen Schritt installiert haben.
  
  Führen Sie den folgenden Befehl aus, um die Version des Nvidia Kernelmoduls zu bestimmen.
```
$ cat /proc/driver/nvidia/version | grep "Kernel Module"
```
  Es folgt eine Beispielausgabe.
```
NVRM version: NVIDIA UNIX x86_64 Kernel Module  450.42.01  Tue Jun 15 21:26:37 UTC 2021
```
  Im obigen Beispiel wurde die Hauptversion 450 des Kernel-Moduls installiert. Dies bedeutet, dass Sie die Nvidia Fabric Manager-Version 450 installieren müssen.
2. Installieren Sie den Nvidia Fabric Manager. Führen Sie den folgenden Befehl aus, und geben Sie die im vorherigen Schritt angegebene Hauptversion an.
```
$ sudo apt install -o Dpkg::Options::='--force-overwrite' nvidia-fabricmanager-major_version_number
```
  Zum Beispiel, wenn die Hauptversion 450 des Kernelmoduls installiert wurde, verwenden Sie den folgenden Befehl, um die passende Version von Nvidia Fabric Manager zu installieren.
```
$ sudo apt install -o Dpkg::Options::='--force-overwrite' nvidia-fabricmanager-450
```
3. Starten Sie den Dienst und stellen Sie sicher, dass er beim Start der Instance automatisch gestartet wird. Nvidia Fabric Manager ist für das NV Switch Management erforderlich.
```
$ sudo systemctl start nvidia-fabricmanager && sudo systemctl enable nvidia-fabricmanager
```
Stellen Sie sicher, dass die CUDA-Pfade bei jedem Start der Instance festgelegt werden.
- Fügen Sie für Bash-Shells die folgenden Anweisungen zu /home/username/.bashrc und /home/username/.bash_profile hinzu.
```
export PATH=/usr/local/cuda/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
```
- Fügen Sie für tcsh-Shells die folgenden Anweisungen zu /home/username/.cshrc hinzu.
```
setenv PATH=/usr/local/cuda/bin:$PATH
setenv LD_LIBRARY_PATH=/usr/local/cuda/lib64:/usr/local/cuda/extras/CUPTI/lib64:$LD_LIBRARY_PATH
```
Führen Sie den folgenden Befehl aus, um zu bestätigen, dass die Nvidia GPU-Treiber funktionieren.
```
$ nvidia-smi -q | head
```
Der Befehl sollte Informationen zu Nvidia-GPUs, Nvidia GPU-Treibern und zum Nvidia CUDA-Toolkit zurückgeben.

Schritt 4: Installieren der GDRCopy

Installieren Sie GDRCopy, um die Leistung von Libfabric zu verbessern. Weitere Informationen zu GDRCopy finden Sie im GDRCopy-Repository.

Schritt 5: Installieren der EFA-Software

Installieren Sie den EFA-fähigen Kernel, die EFA-Treiber, Libfabric und den Open MPI-Stack, der zur Unterstützung von EFA auf Ihrer temporären Instance erforderlich ist.

So installieren Sie die EFA-Software

Stellen Sie eine Verbindung zu der Instance her, die Sie gestartet haben. Weitere Informationen finden Sie unter Herstellen einer Verbindung zur Linux-Instance.
Laden Sie die EFA-Software-Installationsdateien herunter. Die Software-Installationsdateien sind in einer komprimierten Tarball-Datei (.tar.gz) verpackt. Laden Sie die neueste stabile Version mit dem folgenden Befehl herunter.
```
$ C:\> curl -O https://efa-installer.amazonaws.com/aws-efa-installer-1.33.0.tar.gz
```
Sie erhalten die neueste Version auch, indem Sie anstelle der Versionsnummer im vorangegangenen Befehl latest eingeben.
(Optional) Überprüfen Sie die Authentizität und Integrität der EFA-Tarball-Datei (.tar.gz).

Diese Vorgehensweise wird empfohlen, um die Identität des Software-Publishers zu überprüfen und sicherzustellen, dass die Datei seit ihrer Veröffentlichung nicht verändert oder beschädigt wurde. Wenn Sie die Tarball-Datei nicht überprüfen möchten, überspringen Sie diesen Schritt.

Anmerkung
Wenn Sie die Tarball-Datei lieber mit einer MD5- oder SHA256-Prüfsumme überprüfen möchten, finden Sie Informationen unter Überprüfen des EFA-Installationsprogramms mithilfe einer Prüfsumme.
1. Laden Sie den öffentlichen GPG-Schlüssel herunter und importieren Sie ihn in Ihren Schlüsselbund.
```
$ wget https://efa-installer.amazonaws.com/aws-efa-installer.key && gpg --import aws-efa-installer.key
```
  Der Befehl sollte einen Schlüsselwert zurückgeben. Notieren Sie sich den Schlüsselwert. Sie benötigen ihn im nächsten Schritt.
2. Überprüfen Sie den Fingerabdruck des GPG-Schlüssels. Führen Sie den folgenden Befehl aus und geben den Schlüsselwert aus dem vorherigen Schritt an.
```
$ gpg --fingerprint key_value
```
  Der Befehl sollte einen Fingerabdruck zurückgeben, der mit 4E90 91BC BB97 A96B 26B1 5E59 A054 80B1 DD2D 3CCC identisch ist. Wenn der Fingerabdruck nicht übereinstimmt, führen Sie das EFA-Installationsskript nicht aus und wenden Sie sich an den AWS Support.
3. Laden Sie die Signaturdatei herunter und überprüfen Sie die Signatur der EFA-Tarball-Datei.
```
$ wget https://efa-installer.amazonaws.com/aws-efa-installer-1.33.0.tar.gz.sig && gpg --verify ./aws-efa-installer-1.33.0.tar.gz.sig
```
  Das folgende Beispiel zeigt eine Ausgabe.
```
gpg: Signature made Wed 29 Jul 2020 12:50:13 AM UTC using RSA key ID DD2D3CCC
gpg: Good signature from "Amazon EC2 EFA <ec2-efa-maintainers@amazon.com>"
gpg: WARNING: This key is not certified with a trusted signature!
gpg:          There is no indication that the signature belongs to the owner.
Primary key fingerprint: 4E90 91BC BB97 A96B 26B1  5E59 A054 80B1 DD2D 3CCC
```
  Wenn das Ergebnis Good signature enthält und der Fingerabdruck mit dem Fingerabdruck übereinstimmt, der im vorherigen Schritt zurückgegeben wurde, fahren Sie mit dem nächsten Schritt fort. Wenn nicht, führen Sie das EFA-Installationsskript nicht aus und wenden Sie sich an den AWS Support.
Mehr anzeigenWeniger anzeigen
Extrahieren Sie die Daten aus der komprimierten .tar.gz-Datei und wechseln Sie in das extrahierte Verzeichnis.
```
$ C:\> tar -xf aws-efa-installer-1.33.0.tar.gz && cd aws-efa-installer
```
Führen Sie das EFA-Software-Installationsskript aus.

Anmerkung
Ab EFA 1.30.0 sind sowohl Open MPI 4 als auch Open MPI 5 standardmäßig installiert. Sofern Sie Open MPI 5 nicht benötigen, empfehlen wir, nur Open MPI 4 zu installieren. Mit dem folgenden Befehl wird nur Open MPI 4 installiert. Wenn Sie Open MPI 4 und Open MPI 5 installieren möchten, entfernen Sie --mpi=openmpi4.
```
$ sudo ./efa_installer.sh -y --mpi=openmpi4
```
Libfabric ist im Verzeichnis /opt/amazon/efa installiert, während Open MPI im Verzeichnis /opt/amazon/openmpi installiert ist.
Wenn das EFA-Installationsprogramm Sie auffordert, die Instance neu zu starten, tun Sie dies und stellen Sie dann erneut eine Verbindung mit der Instance her. Melden Sie sich andernfalls von der Instance ab und wieder an, um die Installation abzuschließen.

Überprüfen Sie, ob die EFA-Softwarekomponenten erfolgreich installiert wurden.


$ fi_info -p efa -t FI_EP_RDM

Der Befehl muss Informationen zu den Libfabric-EFA-Schnittstellen zurückgeben. Das folgende Beispiel zeigt die Befehlsausgabe.

p3dn.24xlarge mit einer einzigen Netzwerkschnittstelle


provider: efa
fabric: EFA-fe80::94:3dff:fe89:1b70
domain: efa_0-rdm
version: 2.0
type: FI_EP_RDM
protocol: FI_PROTO_EFA

p4d.24xlarge und p5.48xlarge mit mehreren Netzwerkschnittstellen


provider: efa
fabric: EFA-fe80::c6e:8fff:fef6:e7ff
domain: efa_0-rdm
version: 111.0
type: FI_EP_RDM
protocol: FI_PROTO_EFA
provider: efa
fabric: EFA-fe80::c34:3eff:feb2:3c35
domain: efa_1-rdm
version: 111.0
type: FI_EP_RDM
protocol: FI_PROTO_EFA
provider: efa
fabric: EFA-fe80::c0f:7bff:fe68:a775
domain: efa_2-rdm
version: 111.0
type: FI_EP_RDM
protocol: FI_PROTO_EFA
provider: efa
fabric: EFA-fe80::ca7:b0ff:fea6:5e99
domain: efa_3-rdm
version: 111.0
type: FI_EP_RDM
protocol: FI_PROTO_EFA

Schritt 6: Installieren der NCCL

Installieren Sie die NCCL Weitere Informationen zur NCCL finden Sie im NCCL-Repository.

So installieren Sie die NCCL

Navigieren Sie zum Verzeichnis /opt.
```
$ cd /opt
```
Klonen Sie das offizielle NCCL-Repository in die Instance und navigieren Sie zum lokal geklonten Repository.
```
$ sudo git clone https://github.com/NVIDIA/nccl.git && cd nccl
```
Erstellen und installieren Sie die NCCL und geben Sie das CUDA-Installationsverzeichnis an.
```
$ sudo make -j src.build CUDA_HOME=/usr/local/cuda
```

Schritt 7: Installieren Sie das Plugin aws-ofi-nccl

Das aws-ofi-nccl Plugin ordnet die verbindungsorientierten Transport-APIs von NCCL der verbindungslosen, zuverlässigen Schnittstelle von Libfabric zu. Sie können dann libfabric als Netzwerkanbieter verwenden, während NCCL-basierte Anwendungen ausgeführt werden. Weitere Informationen über das Plugin finden Sie im Repository. aws-ofi-nccl aws-ofi-nccl

Um das aws-ofi-nccl Plugin zu installieren

Navigieren Sie zum Stammverzeichnis.
```
$ cd $HOME
```
Installieren Sie die erforderlichen Dienstprogramme.
- Amazon Linux 2
```
$ sudo yum install hwloc-devel
```
- Ubuntu
```
$ sudo apt-get install libhwloc-dev
```
Laden Sie die aws-ofi-nccl Plugin-Dateien herunter. Die Dateien sind in einer komprimierten Tarball-Datei (.tar.gz) gepackt.
```
$ wget https://github.com/aws/aws-ofi-nccl/releases/download/v1.9.2-aws/aws-ofi-nccl-1.9.2-aws.tar.gz
```
Extrahieren Sie die Daten aus der komprimierten Datei mit der Endung „.tar.gz“ und wechseln Sie in das extrahierte Verzeichnis.
```
$ tar -xf aws-ofi-nccl-1.9.2-aws.tar.gz && cd aws-ofi-nccl-1.9.2-aws
```

Führen Sie zum Generieren der make-Dateien das Skript configure aus und geben Sie die Installationsverzeichnisse für MPI, libfabric, NCCL und CUDA an.


$ ./configure --prefix=/opt/aws-ofi-nccl --with-mpi=/opt/amazon/openmpi \
--with-libfabric=/opt/amazon/efa \
--with-cuda=/usr/local/cuda \
--enable-platform-aws

Fügen Sie der PATH-Variablen das Open MPI-Verzeichnis hinzu.
```
$ export PATH=/opt/amazon/openmpi/bin/:$PATH
```
Installiere das aws-ofi-nccl Plugin.
```
$ make && sudo make install
```

Schritt 8: Installieren der NCCL-Tests

Installieren Sie die NCCL-Tests. Mit den NCCL-Tests können Sie bestätigen, dass die NCCL richtig installiert wurde und wie erwartet funktioniert. Weitere Informationen zu den NCCL-Tests finden Sie unter nccl-tests repository.

So installieren Sie die NCCL-Tests

Navigieren Sie zum Stammverzeichnis.
```
$ cd $HOME
```
Klonen Sie das offizielle nccl-tests-Repository in die Instance und navigieren Sie zum lokal geklonten Repository.
```
$ git clone https://github.com/NVIDIA/nccl-tests.git && cd nccl-tests
```

Fügen Sie das libfabric-Verzeichnis in die Variable LD_LIBRARY_PATH ein.

Amazon Linux 2


$ export LD_LIBRARY_PATH=/opt/amazon/efa/lib64:$LD_LIBRARY_PATH

Ubuntu


$ export LD_LIBRARY_PATH=/opt/amazon/efa/lib:$LD_LIBRARY_PATH

Installieren Sie die NCCL-Tests und geben Sie die Installationsverzeichnisse für MPI, NCCL und CUDA an.
```
$ make MPI=1 MPI_HOME=/opt/amazon/openmpi NCCL_HOME=/opt/nccl/build CUDA_HOME=/usr/local/cuda
```

Schritt 9: Testen der EFA- und NCCL-Konfiguration

Führen Sie einen Test durch, um sicherzustellen, dass Ihre temporäre Instance richtig für EFA und NCCL konfiguriert ist.

So testen Sie EFA- und NCCL-Konfiguration

Erstellen Sie eine Host-Datei, die die Hosts angibt, auf denen die Tests ausgeführt werden sollen. Der folgende Befehl erstellt eine Host-Datei namens my-hosts, die eine Referenz auf die Instance selbst enthält.

Führen Sie den Test aus und geben Sie die Host-Datei (--hostfile) und die Anzahl zu verwendender GPUs (-n) an. Der folgende Befehl führt den Test all_reduce_perf auf 8 GPUs in der Instance selbst aus und gibt die folgenden Umgebungsvariablen an.

FI_EFA_USE_DEVICE_RDMA=1 – (nur p4d.24xlarge) verwendet die RDMA-Funktion des Geräts für einseitige und zweiseitige Übertragungen.
NCCL_DEBUG=INFO: ermöglicht eine detaillierte Debugging-Ausgabe. Sie können auch VERSION angeben, damit nur die NCCL-Version am Anfang des Tests ausgegeben wird oder WARN, damit nur Fehlermeldungen ausgegeben werden.

Weitere Informationen zu den Argumenten für NCCL-Tests finden Sie unter NCCL Tests README im offiziellen nccl-tests-Repository.

p3dn.24xlarge


$ /opt/amazon/openmpi/bin/mpirun \
-x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \
-x NCCL_DEBUG=INFO \
--hostfile my-hosts -n 8 -N 8 \
--mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
$HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100

p4d.24xlarge und p5.48xlarge


$ /opt/amazon/openmpi/bin/mpirun \
-x FI_EFA_USE_DEVICE_RDMA=1 \
-x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \
-x NCCL_DEBUG=INFO \
--hostfile my-hosts -n 8 -N 8 \
--mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \
$HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100

Sie können bestätigen, dass EFA als zugrunde liegender Anbieter für NCCL aktiv ist, wenn das NCCL_DEBUG-Protokoll gedruckt wird.


ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Selected Provider is efa*

Die folgenden zusätzlichen Informationen werden angezeigt, wenn Sie eine p4d.24xlarge-Instance verwenden.


ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Running on P4d platform, Setting NCCL_TOPO_FILE environment variable to /home/ec2-user/install/plugin/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml

Schritt 10: Installieren der Machine-Learning-Anwendungen

Installieren Sie die Machine-Learning-Anwendungen auf der temporären Instance. Der Installationsvorgang variiert je nach Machine-Learning-Anwendung. Weitere Informationen zur Installation von Software auf Ihrer Linux-Instance finden Sie unter Software auf Ihrer Amazon Linux 2-Instance verwalten.

Anmerkung

In der Dokumentation Ihrer Machine-Learning-Anwendung finden Sie Installationsanleitungen.

Schritt 11: Erstellen eines EFA- und NCCL-konformen AMI

Nachdem Sie die erforderlichen Softwarekomponenten installiert haben, erstellen Sie ein AMI, das Sie erneut verwenden können, um Ihre EFA-fähigen Instances zu starten.

So erstellen Sie ein AMI aus Ihrer temporären Instance:

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie im Navigationsbereich Instances aus.
Wählen Sie die temporäre Instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Image und Create Image (Image erstellen) aus.
Gehen Sie bei Create Image (Image erstellen) wie folgt vor:
1. Geben Sie unter Image name (Image-Name) einen beschreibenden Namen für das AMI ein.
2. (Optional:) Geben Sie bei Image description (Image-Beschreibung) eine kurze Beschreibung des Zwecks des AMI ein.
3. Wählen Sie Create Image (Image erstellen) aus.
Wählen Sie im Navigationsbereich die Option AMIs.
Suchen Sie das AMI, das Sie erstellt haben, in der Liste. Warten Sie, bis der Status von pending zu available wechselt, bevor Sie mit dem nächsten Schritt fortfahren.

Schritt 12: Beenden der temporären Instance

An diesem Punkt benötigen Sie die temporäre Instance, die Sie gestartet haben, nicht mehr. Sie können die Instance beenden, damit keine weiteren Kosten dafür anfallen.

So beenden Sie die temporäre Instance:

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie im Navigationsbereich Instances aus.
Wählen Sie die temporäre instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Instance state (Instance-Zustand) und Terminate instance (Instance beenden) aus.
Wählen Sie Terminate (Kündigen) aus, wenn Sie zur Bestätigung aufgefordert werden.

Schritt 13: Starten von EFA- und NCCL-konformen Instances in einer Cluster-Placement-Gruppe

Starten Sie die EFA- und NCCL-fähigen Instances in einer Cluster-Placement-Gruppe, indem Sie das EFA-fähige AMI und die EFA-fähige Sicherheitsgruppe verwenden, die Sie zuvor erstellt haben.

Anmerkung

Es ist keine absolute Voraussetzung, Ihre EFA-aktivierten Instances in einer Cluster-Platzierungsgruppe zu starten. Wir empfehlen allerdings, Ihre EFA-Instances in einer Cluster-Placement-Gruppe zu starten, da die Instances dadurch in einer Gruppe mit niedriger Latenz in einer einzelnen Availability Zone gestartet werden.
Um die Verfügbarkeit von Kapazitäten sicherzustellen, wenn Sie die Instances Ihres Clusters skalieren, können Sie eine Kapazitätsreservierung für Ihre Cluster-Placement-Gruppe erstellen. Weitere Informationen finden Sie unter Kapazitätsreservierungen in Cluster-Placement-Gruppen.

New console

So starten Sie eine temporäre Instance

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie im Navigationsbereich Instances und dann Instances starten aus, um den Launch Instance Wizard zu öffnen.
(Optional) Geben Sie im Bereich Name and tags (Name und Tags) einen Namen für die Instance an, z. B. EFA-instance. Der Name wird der Instance als Ressourcen-Tag (Name=EFA-instance) zugewiesen.
Wählen Sie im Bereich Application and OS Images (Anwendungs- und Betriebssystem-Images) My AMIs (Meine AMIs) und dann das AMI aus, das Sie im vorherigen Schritt erstellt haben.
Wählen Sie im Bereich Instance type (Instance-Typ) entweder p3dn.24xlarge oder p4d.24xlarge aus.
Wählen Sie im Bereich Key pair (Schlüsselpaar) das Schlüsselpaar aus, das für die Instance verwendet werden soll.
Wählen Sie im Bereich Network settings (Netzwerkeinstellungen) Edit (Bearbeiten) aus und führen Sie dann Folgendes aus:
1. Wählen Sie unter Subnetz das Subnetz aus, in dem die Instance gestartet werden soll. Wenn Sie kein Subnetz auswählen, können Sie die Instance nicht für EFA aktivieren.
2. Wählen Sie bei Firewall (security groups) Firewall (Sicherheitsgruppen) Select existing security group (Vorhandene Sicherheitsgruppe auswählen) und dann die Sicherheitsgruppe aus, die Sie im vorherigen Schritt erstellt haben.
3. Erweitern Sie den Bereich Advanced network configuration (Erweiterte Netzwerkkonfiguration) und wählen Sie bei Elastic Fabric Adapter Enable (Aktivieren) aus.
(Optional) Konfigurieren Sie im Bereich Storage (Speicher) die Volumes nach Bedarf.
Wählen Sie im Bereich Advanced details (Erweiterte Details) bei Placement group name (Placement-Gruppen-Name) die Cluster-Placement-Gruppe aus, in der die Instance gestartet werden soll. Wenn Sie eine neue Cluster-Placement-Gruppe erstellen müssen, wählen Sie Create new placement group (Neue Placement-Gruppe erstellen).
Geben Sie im Bereich Summary (Zusammenfassung) rechts bei Number of instances (Anzahl der Instances) die Anzahl EFA-fähiger Instances ein, die Sie starten möchten, und wählen Sie dann Launch instance (Instance starten).

Old console

So starten Sie EFA- und NCCL-fähige Instances in einer Cluster-Placement-Gruppe:

Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/.
Wählen Sie Launch Instance aus.
Wählen Sie auf der Seite Choose an AMI (AMI auswählen) die Option My AMIs (Meine AMIs), suchen Sie das AMI, das Sie zuvor erstellt haben, und wählen Sie anschließend Select (Auswählen) aus.
Wählen Sie auf der Seite Choose an Instance Type (Instance-Typ auswählen) die Option p3dn.24xlarge und dann Next: Configure Instance Details (Weiter: Instance-Details konfigurieren) aus.
Führen Sie auf der Seite Configure Instance Details (Instance-Details konfigurieren) die folgenden Schritte aus:
1. Geben Sie bei Number of instances (Anzahl der Instances) die Anzahl der EFA- und NCCL-fähigen Instances ein, die gestartet werden sollen.
2. Wählen Sie für Network (Netzwerk) und Subnet (Subnetz) die VPC und das Subnetz an, in das Sie die Instances starten möchten.
3. Wählen Sie für Placement group (Placement-Gruppe) die Option Add instance to placement group (Instance der Placement-Gruppe hinzufügen) aus.
4. Wählen Sie bei Placement group name (Name der Placement-Gruppe) die Option Add to a new placement group (Zu neuer Placement-Gruppe hinzufügen) aus und geben Sie dann einen beschreibenden Namen für die Placement-Gruppe ein. Wählen Sie dann bei Placement group strategy (Strategie für Placement-Gruppe) cluster aus.
5. Wählen Sie für EFA Enable (Aktivieren) aus.
6. Wählen Sie im Abschnitt Network Interfaces (Netzwerkschnittstellen für das Gerät eth0 die Option New network interface (Neue Netzwerkschnittstelle) aus. Sie können zudem optional eine primäre IPv4-Adresse und eine oder mehrere sekundäre IPv4-Adressen eingeben. Wenn Sie die Instance in einem Subnetz starten, dem ein IPv6-CIDR-Block zugeordnet ist, können Sie optional eine primäre IPv6-Adresse und eine oder mehrere sekundäre IPv6-Adressen angeben.
7. Wählen Sie Next: Add Storage aus.
Geben Sie auf der Seite Add Storage (Speicher hinzufügen) die Volumes an, die an die Instances angefügt werden sollen, ergänzend zu den Volumes, die vom AMI angegeben werden (z. B. der Root-Gerät-Volume). Wählen Sie dann Next: Add Tags (Weiter: Tags (Markierungen) hinzufügen) aus.
Geben Sie auf der Seite Add Tags (Tags (Markierungen) hinzufügen) Tags (Markierungen) für die Instances an, z. B. einen benutzerfreundlichen Namen, und wählen Sie anschließend Next: Configure Security Group (Weiter: Sicherheitsgruppe konfigurieren).
Wählen Sie auf der Seite Configure Security Group (Sicherheitsgruppe konfigurieren) bei Assign a security group (Sicherheitsgruppe zuweisen) die Option Select an existing security group (Vorhandene Sicherheitsgruppe auswählen) und dann die Sicherheitsgruppe aus, die Sie zuvor erstellt haben.
Klicken Sie auf Review and Launch.
Überprüfen Sie auf der Seite Review Instance Launch (Instance-Start überprüfen) Ihre Einstellungen und wählen Sie anschließend Launch (Starten) aus, um ein Schlüsselpaar auszuwählen und Ihre Instance zu starten.

Schritt 14: Aktivieren von passwortlosem SSH

Damit Ihre Anwendungen auf allen Instances in Ihrem Cluster ausgeführt werden können, müssen Sie passwortlosen SSH-Zugriff vom Führungsknoten auf die Mitgliedsknoten aktivieren. Der Führungsknoten ist die Instance, von der aus Sie die Anwendungen ausführen. Die verbleibenden Instances im Cluster sind die Mitgliedsknoten.

So aktivieren Sie passwortloses SSH zwischen den Instances im Cluster:

Wählen Sie eine Instance im Cluster als Führungsknoten aus und stellen Sie eine Verbindung zu ihr her.
Deaktivieren Sie strictHostKeyChecking und aktivieren Sie ForwardAgent für den Führungsknoten. Öffnen Sie ~/.ssh/config mit dem bevorzugten Texteditor und fügen Sie Folgendes hinzu.
```
Host *
    ForwardAgent yes
Host *
    StrictHostKeyChecking no
```
Generieren Sie ein RSA-Schlüsselpaar.
```
$ ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsa
```
Das Schlüsselpaar wird im $HOME/.ssh/-Verzeichnis erstellt.
Ändern Sie die Berechtigungen des privaten Schlüssels auf dem Führungsknoten.
```
$ chmod 600 ~/.ssh/id_rsa
chmod 600 ~/.ssh/config
```
Öffnen Sie ~/.ssh/id_rsa.pub mit Ihrem bevorzugten Texteditor und kopieren Sie den Schlüssel.
Gehen Sie für jeden Mitgliedsknoten im Cluster wie folgt vor:
1. Stellen Sie eine Verbindung mit der Instance her.
2. Öffnen Sie ~/.ssh/authorized_keys mit Ihrem bevorzugten Texteditor und fügen Sie den öffentlichen Schlüssel hinzu, den Sie zuvor kopiert haben.
Um zu testen, ob das passwortlose SSH wie erwartet funktioniert, stellen Sie eine Verbindung zum Leaderknoten her und führen Sie den folgenden Befehl aus.
```
$ ssh member_node_private_ip
```
Sie sollten eine Verbindung zum Mitgliedsknoten herstellen können, ohne zur Eingabe eines Schlüssels oder Passworts aufgefordert zu werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Erste Schritte mit EFA und MPI

Arbeiten mit EFA

Erste Schritte mit EFA und NCCL

Anmerkung

Schritte

Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe

Wichtig

So erstellen Sie eine EFA-fähige Sicherheitsgruppe:

Schritt 2: Starten einer temporären Instance

So starten Sie eine temporäre Instance

Anmerkung

Schritt 3: Installieren der Nvidia-GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Installieren der Nvidia GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Installieren der Nvidia GPU-Treiber, des Nvidia-CUDA-Toolkits und cuDNN

Schritt 4: Installieren der GDRCopy

So installieren Sie GDRCopy

So installieren Sie GDRCopy

Schritt 5: Installieren der EFA-Software

So installieren Sie die EFA-Software

Anmerkung

Anmerkung

Schritt 6: Installieren der NCCL

So installieren Sie die NCCL

Schritt 7: Installieren Sie das Plugin aws-ofi-nccl

Um das aws-ofi-nccl Plugin zu installieren

Schritt 8: Installieren der NCCL-Tests

So installieren Sie die NCCL-Tests

Schritt 9: Testen der EFA- und NCCL-Konfiguration

So testen Sie EFA- und NCCL-Konfiguration

Schritt 10: Installieren der Machine-Learning-Anwendungen

Anmerkung

Schritt 11: Erstellen eines EFA- und NCCL-konformen AMI

So erstellen Sie ein AMI aus Ihrer temporären Instance:

Schritt 12: Beenden der temporären Instance

So beenden Sie die temporäre Instance:

Schritt 13: Starten von EFA- und NCCL-konformen Instances in einer Cluster-Placement-Gruppe

Anmerkung

So starten Sie eine temporäre Instance

So starten Sie EFA- und NCCL-fähige Instances in einer Cluster-Placement-Gruppe:

Schritt 14: Aktivieren von passwortlosem SSH

So aktivieren Sie passwortloses SSH zwischen den Instances im Cluster: