Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie ein AWS Deep Learning-AMI
Die folgenden Schritte helfen Ihnen bei den ersten Schritten mit einem der folgenden AWS Deep Learning-AMIs:
-
Deep-Learning-AMI (Amazon Linux 2)
-
Deep-Learning-AMI (Ubuntu 20.04)
Weitere Informationen finden Sie im AWS Deep Learning AMI -Benutzerhandbuch.
Anmerkung
Nur die p3dn.24xlarge
- und p4d.24xlarge
-Instance-Typen werden unterstützt.
Inhalt
- Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe
- Schritt 2: Starten einer temporären Instance
- Schritt 3: Testen der EFA- und NCCL-Konfiguration
- Schritt 4: Installieren der Machine-Learning-Anwendungen
- Schritt 5: Erstellen eines EFA- und NCCL-konformen AMI
- Schritt 6: Beenden der temporären Instance
- Schritt 7: Starten von EFA- und NCCL-konformen Instances in einer Cluster Placement-Gruppe
- Schritt 8: Aktivieren von passwortlosem SSH
Schritt 1: Vorbereiten einer EFA-aktivierten Sicherheitsgruppe
Ein EFA erfordert eine Sicherheitsgruppe, die allen ein- und ausgehenden Datenverkehr von und zur Sicherheitsgruppe zulässt. Mit dem folgenden Verfahren wird eine Sicherheitsgruppe erstellt, die den gesamten ein- und ausgehenden Datenverkehr der Gruppe sowie eingehenden SSH-Datenverkehr von jeder IPv4-Adresse zwecks SSH-Konnektivität zulässt.
Wichtig
Diese Sicherheitsgruppe dient nur zu Testzwecken. Für Produktionsumgebungen sollten Sie eine Regel für eingehenden SSH-Datenverkehr erstellen, die Datenverkehr nur von der IP-Adresse zulässt, von der aus Sie eine Verbindung herstellen, z. B. die IP-Adresse Ihres Computers oder einen Bereich von IP-Adressen im lokalen Netzwerk.
Weitere Szenarien finden Sie unter Sicherheitsgruppenregeln für verschiedene Anwendungsfälle.
So erstellen Sie eine EFA-fähige Sicherheitsgruppe:
Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Security Groups (Sicherheitsgruppen) und anschließend Create Security Group (Sicherheitsgruppe erstellen) aus.
-
Führen Sie im Fenster Create Security Group Folgendes aus:
-
Geben Sie für Security group name (Name der Sicherheitsgruppe) einen beschreibenden Namen für die Sicherheitsgruppe ein, wie etwa
EFA-enabled security group
. -
(Optional:) Geben Sie unter Description (Beschreibung) eine kurze Beschreibung der Sicherheitsgruppe ein.
-
Wählen Sie bei VPC die VPC aus, in der Sie Ihre EFA-fähigen Instances starten möchten.
-
Wählen Sie Sicherheitsgruppe erstellen aus.
-
-
Wählen Sie die von Ihnen erstellte Sicherheitsgruppe aus und kopieren Sie dann auf der Registerkarte Details die Security group ID (Sicherheitsgruppen-ID).
-
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit inbound rules (Eingangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
-
Wählen Sie bei Source type (Quellentyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie unter Typ die Option SSH aus.
-
Wählen Sie unter Source (Quelle) die Option Anywhere-IPv4 (Alle IPv4) aus.
-
Wählen Sie Save rules (Regeln speichern) aus.
-
-
Bei noch ausgewählter Sicherheitsgruppe wählen Sie Actions (Aktionen), Edit outbound rules (Ausgangsregeln bearbeiten) aus und gehen dann folgendermaßen vor:
-
Wählen Sie Regel hinzufügen aus.
-
Wählen Sie für Type (Typ) die Option All traffic (Gesamter Datenverkehr) aus.
-
Wählen Sie bei Destination type (Zieltyp) Custom (Benutzerdefiniert) aus und fügen Sie die Sicherheitsgruppen-ID, die Sie kopiert hatten, ins Feld ein.
-
Wählen Sie Save rules (Regeln speichern) aus.
-
Schritt 2: Starten einer temporären Instance
Starten Sie eine temporäre Instance, die Sie verwenden können, um die EFA-Softwarekomponenten zu installieren und zu konfigurieren. Sie können mit dieser Instance ein EFA-aktiviertes AMI erstellen, von dem Sie Ihre EFA-aktivierten Instances starten können.
So starten Sie eine temporäre Instance
Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances und dann Instances starten aus, um den Launch Instance Wizard zu öffnen.
-
(Optional) Geben Sie im Bereich Name and tags (Name und Tags) einen Namen für die Instance an, z. B.
EFA-instance
. Der Name wird der Instance als Ressourcen-Tag (Name=
) zugewiesen.EFA-instance
-
Wählen Sie im Bereich Application and OS Images (Anwendungs- und Betriebssystem-Images) eine unterstützte AWS Deep Learning AMI Version 25.0 oder neuer aus.
-
Wählen Sie im Bereich Instance type (Instance-Typ) entweder
p3dn.24xlarge
oderp4d.24xlarge
aus. -
Wählen Sie im Bereich Key pair (Schlüsselpaar) das Schlüsselpaar aus, das für die Instance verwendet werden soll.
-
Wählen Sie im Bereich Network settings (Netzwerkeinstellungen) Edit (Bearbeiten) aus und führen Sie dann Folgendes aus:
-
Wählen Sie unter Subnetz das Subnetz aus, in dem die Instance gestartet werden soll. Wenn Sie kein Subnetz auswählen, können Sie die Instance nicht für EFA aktivieren.
-
Wählen Sie bei Firewall (security groups) Firewall (Sicherheitsgruppen) Select existing security group (Vorhandene Sicherheitsgruppe auswählen) und dann die Sicherheitsgruppe aus, die Sie im vorherigen Schritt erstellt haben.
-
Erweitern Sie den Bereich Advanced network configuration (Erweiterte Netzwerkkonfiguration) und wählen Sie bei Elastic Fabric Adapter Enable (Aktivieren) aus.
-
-
Konfigurieren Sie im Bereich Storage (Speicher) die Volumes nach Bedarf.
Anmerkung
Sie müssen zusätzliche 10 bis 20 GiB Speicher für das Nvidia CUDA Toolkit bereitstellen. Wenn Sie nicht genügend Speicherplatz bereitstellen, erhalten Sie einen
insufficient disk space
-Fehler beim Versuch, die Nvidia-Treiber und das CUDA-Toolkit zu installieren. -
Wählen Sie im Bereich Summary (Zusammenfassung) rechts Launch instance (Instance starten) aus.
Schritt 3: Testen der EFA- und NCCL-Konfiguration
Führen Sie einen Test durch, um sicherzustellen, dass Ihre temporäre Instance richtig für EFA und NCCL konfiguriert ist.
So testen Sie EFA- und NCCL-Konfiguration
-
Erstellen Sie eine Host-Datei, die die Hosts angibt, auf denen die Tests ausgeführt werden sollen. Der folgende Befehl erstellt eine Host-Datei namens
my-hosts
, die eine Referenz auf die Instance selbst enthält. -
Führen Sie den Test aus und geben Sie die Host-Datei (
--hostfile
) und die Anzahl zu verwendender GPUs (-n
) an. Der folgende Befehl führt den Testall_reduce_perf
auf 8 GPUs in der Instance selbst aus und gibt die folgenden Umgebungsvariablen an.-
FI_EFA_USE_DEVICE_RDMA=1
– (nurp4d.24xlarge
) verwendet die RDMA-Funktion des Geräts für einseitige und zweiseitige Übertragungen. -
NCCL_DEBUG=INFO
: ermöglicht eine detaillierte Debugging-Ausgabe. Sie können auchVERSION
angeben, damit nur die NCCL-Version am Anfang des Tests ausgegeben wird oderWARN
, damit nur Fehlermeldungen ausgegeben werden.
Weitere Informationen zu den Argumenten für NCCL-Tests finden Sie unter NCCL Tests README
im offiziellen nccl-tests-Repository. -
p3dn.24xlarge
$
/opt/amazon/openmpi/bin/mpirun \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100 -
p4d.24xlarge
$
/opt/amazon/openmpi/bin/mpirun \ -x FI_EFA_USE_DEVICE_RDMA=1 \ -x LD_LIBRARY_PATH=/opt/nccl/build/lib:/usr/local/cuda/lib64:/opt/amazon/efa/lib:/opt/amazon/openmpi/lib:/opt/aws-ofi-nccl/lib:$LD_LIBRARY_PATH \ -x NCCL_DEBUG=INFO \ --hostfile my-hosts -n 8 -N 8 \ --mca pml ^cm --mca btl tcp,self --mca btl_tcp_if_exclude lo,docker0 --bind-to none \ $HOME/nccl-tests/build/all_reduce_perf -b 8 -e 1G -f 2 -g 1 -c 1 -n 100
-
-
Sie können bestätigen, dass EFA als zugrunde liegender Anbieter für NCCL aktiv ist, wenn das
NCCL_DEBUG
-Protokoll gedruckt wird.ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Selected Provider is efa*
Die folgenden zusätzlichen Informationen werden angezeigt, wenn Sie eine
p4d.24xlarge
-Instance verwenden.ip-192-168-2-54:14:14 [0] NCCL INFO NET/OFI Running on P4d platform, Setting NCCL_TOPO_FILE environment variable to /home/ec2-user/install/plugin/share/aws-ofi-nccl/xml/p4d-24xl-topo.xml
Schritt 4: Installieren der Machine-Learning-Anwendungen
Installieren Sie die Machine-Learning-Anwendungen auf der temporären Instance. Der Installationsvorgang variiert je nach Machine-Learning-Anwendung. Weitere Informationen zum Installieren von Software auf Ihrer Linux-Instance finden Sie unter Verwalten von Software auf einer Linux-Instance.
Anmerkung
In der Dokumentation Ihrer Machine-Learning-Anwendung finden Sie Installationsanleitungen.
Schritt 5: Erstellen eines EFA- und NCCL-konformen AMI
Nachdem Sie die erforderlichen Softwarekomponenten installiert haben, erstellen Sie ein AMI, das Sie erneut verwenden können, um Ihre EFA-fähigen Instances zu starten.
So erstellen Sie ein AMI aus Ihrer temporären Instance:
Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances aus.
-
Wählen Sie die temporäre Instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Image und Create Image (Image erstellen) aus.
-
Gehen Sie bei Create Image (Image erstellen) wie folgt vor:
-
Geben Sie unter Image name (Image-Name) einen beschreibenden Namen für das AMI ein.
-
(Optional:) Geben Sie bei Image description (Image-Beschreibung) eine kurze Beschreibung des Zwecks des AMI ein.
-
Wählen Sie Create Image (Image erstellen) aus.
-
-
Wählen Sie im Navigationsbereich die Option AMIs.
-
Suchen Sie das AMI, das Sie erstellt haben, in der Liste. Warten Sie, bis der Status von
pending
zuavailable
wechselt, bevor Sie mit dem nächsten Schritt fortfahren.
Schritt 6: Beenden der temporären Instance
An diesem Punkt benötigen Sie die temporäre Instance, die Sie gestartet haben, nicht mehr. Sie können die Instance beenden, damit keine weiteren Kosten dafür anfallen.
So beenden Sie die temporäre Instance:
Öffnen Sie die Amazon EC2-Konsole unter https://console.aws.amazon.com/ec2/
. -
Wählen Sie im Navigationsbereich Instances aus.
-
Wählen Sie die temporäre instance aus, die Sie erstellt haben, und wählen Sie anschließend Actions (Aktionen), Instance state (Instance-Zustand) und Terminate instance (Instance beenden) aus.
-
Wählen Sie Terminate (Kündigen) aus, wenn Sie zur Bestätigung aufgefordert werden.
Schritt 7: Starten von EFA- und NCCL-konformen Instances in einer Cluster Placement-Gruppe
Starten Sie die EFA- und NCCL-fähigen Instances in einer Cluster-Placement-Gruppe, indem Sie das EFA-fähige AMI und die EFA-fähige Sicherheitsgruppe verwenden, die Sie zuvor erstellt haben.
Anmerkung
-
Es ist keine absolute Voraussetzung, Ihre EFA-aktivierten Instances in einer Cluster-Placement-Gruppe zu starten. Wir empfehlen allerdings, Ihre EFA-Instances in einer Cluster-Placement-Gruppe zu starten, da die Instances dadurch in einer Gruppe mit niedriger Latenz in einer einzelnen Availability Zone gestartet werden.
-
Um die Verfügbarkeit von Kapazitäten sicherzustellen, wenn Sie die Instances Ihres Clusters skalieren, können Sie eine Kapazitätsreservierung für Ihre Cluster-Placement-Gruppe erstellen. Weitere Informationen finden Sie unter Kapazitätsreservierungen in Cluster-Placement-Gruppen.
Schritt 8: Aktivieren von passwortlosem SSH
Damit Ihre Anwendungen auf allen Instances in Ihrem Cluster ausgeführt werden können, müssen Sie passwortlosen SSH-Zugriff vom Führungsknoten auf die Mitgliedsknoten aktivieren. Der Führungsknoten ist die Instance, von der aus Sie die Anwendungen ausführen. Die verbleibenden Instances im Cluster sind die Mitgliedsknoten.
So aktivieren Sie passwortloses SSH zwischen den Instances im Cluster:
-
Wählen Sie eine Instance im Cluster als Führungsknoten aus und stellen Sie eine Verbindung zu ihr her.
-
Deaktivieren Sie
strictHostKeyChecking
und aktivieren SieForwardAgent
für den Führungsknoten. Öffnen Sie~/.ssh/config
mit dem bevorzugten Texteditor und fügen Sie Folgendes hinzu.Host * ForwardAgent yes Host * StrictHostKeyChecking no
-
Generieren Sie ein RSA-Schlüsselpaar.
$
ssh-keygen -t rsa -N "" -f ~/.ssh/id_rsaDas Schlüsselpaar wird im
$HOME/.ssh/
-Verzeichnis erstellt. -
Ändern Sie die Berechtigungen des privaten Schlüssels auf dem Führungsknoten.
$
chmod 600 ~/.ssh/id_rsa chmod 600 ~/.ssh/config -
Öffnen Sie
~/.ssh/id_rsa.pub
mit Ihrem bevorzugten Texteditor und kopieren Sie den Schlüssel. -
Gehen Sie für jeden Mitgliedsknoten im Cluster wie folgt vor:
-
Stellen Sie eine Verbindung mit der Instance her.
-
Öffnen Sie
~/.ssh/authorized_keys
mit Ihrem bevorzugten Texteditor und fügen Sie den öffentlichen Schlüssel hinzu, den Sie zuvor kopiert haben.
-
-
Um zu testen, ob das passwortlose SSH wie erwartet funktioniert, stellen Sie eine Verbindung zum Leaderknoten her und führen Sie den folgenden Befehl aus.
$
sshmember_node_private_ip
Sie sollten eine Verbindung zum Mitgliedsknoten herstellen können, ohne zur Eingabe eines Schlüssels oder Passworts aufgefordert zu werden.