Überprüfen Sie die Laufzeit, bevor Sie Produktionsworkloads auf einem Slurm-Cluster ausführen auf HyperPod - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überprüfen Sie die Laufzeit, bevor Sie Produktionsworkloads auf einem Slurm-Cluster ausführen auf HyperPod

Verwenden Sie das Runtime-Validierungsskript, um die Laufzeit zu überprüfen HyperPod, bevor Sie Produktions-Workloads auf einem Slurm-Cluster ausführen. hyperpod-precheck.py Dieses Skript prüft, ob auf dem Slurm-Cluster alle Pakete für die Ausführung von Docker installiert sind, ob der Cluster über ein ordnungsgemäß FSx für Lustre gemountetes Dateisystem und ein Benutzerverzeichnis verfügt, das das Dateisystem gemeinsam nutzt, und ob der Slurm-Daemon auf allen Rechenknoten läuft.

Um das Skript auf mehreren Knoten gleichzeitig auszuführen, verwenden Sie, srun wie im folgenden Beispiel gezeigt, den Befehl, das Skript auf einem Slurm-Cluster mit 8 Knoten auszuführen.

# The following command runs on 8 nodes srun -N 8 python3 hyperpod-precheck.py
Anmerkung

Weitere Informationen zum Validierungsskript, z. B. zu den Funktionen zur Laufzeitvalidierung, die das Skript bietet, und Richtlinien zur Lösung von Problemen, die die Validierungen nicht bestehen, finden Sie unter Laufzeitvalidierung vor dem Ausführen von Workloads im Repository Awsome Distributed Training. GitHub