Orchestrierung von SageMaker HyperPod Clustern mit Slurm - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Orchestrierung von SageMaker HyperPod Clustern mit Slurm

Die Slurm-Unterstützung SageMaker HyperPod unterstützt Sie bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie großen Sprachmodellen (LLMs), Diffusionsmodellen und Basismodellen (). FMs Es beschleunigt die Entwicklung von, FMs indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern wie AWS Trainium und NVIDIA A100 und H100 Graphical Processing Units () angetrieben werden. GPUs Wenn Beschleuniger ausfallen, erkennen die Ausfallsicherheitsfunktionen der SageMaker HyperPod Monitore die fehlerhafte Hardware automatisch und ersetzen sie im laufenden Betrieb, sodass Sie sich auf die Ausführung von ML-Workloads konzentrieren können. Darüber hinaus können Sie mit der Unterstützung für die Lebenszykluskonfiguration Ihre Computerumgebung an Ihre Bedürfnisse anpassen und sie mit den verteilten Schulungsbibliotheken von Amazon SageMaker AI konfigurieren, um eine optimale Leistung zu erzielen AWS. SageMaker HyperPod

Betrieb von Clustern

Sie können SageMaker HyperPod Cluster grafisch über die Benutzeroberfläche (UI) der Konsole und programmgesteuert über die AWS Befehlszeilenschnittstelle () oder erstellen, konfigurieren und verwalten. CLI AWS SDK for Python (Boto3) Mit Amazon VPC können Sie das Cluster-Netzwerk sichern und auch die Vorteile der Konfiguration Ihres Clusters mit Ressourcen in Ihrem nutzenVPC, z. B. Amazon FSx for Lustre, das den schnellsten Durchsatz bietet. Sie können Cluster-Instance-Gruppen auch unterschiedliche IAM Rollen zuweisen und die Aktionen einschränken, die Ihre Cluster-Ressourcen und Benutzer ausführen können. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Betrieb.

Konfiguration Ihrer ML-Umgebung

SageMaker HyperPod läuftSageMaker HyperPod DLAMI, wodurch eine ML-Umgebung auf den HyperPod Clustern eingerichtet wird. Sie können zusätzliche Anpassungen für konfigurieren, DLAMI indem Sie Lifecycle-Skripten zur Unterstützung Ihres Anwendungsfalls bereitstellen. Weitere Informationen zum Einrichten von Lebenszyklusskripten finden Sie unter Tutorial für die ersten Schritte mit SageMaker HyperPod undPassen Sie SageMaker HyperPod Cluster mithilfe von Lebenszyklusskripten an.

Jobs planen

Nachdem Sie einen HyperPod Cluster erfolgreich erstellt haben, können sich Clusterbenutzer bei den Clusterknoten (wie dem Head- oder Controller-Knoten, dem Anmeldeknoten und dem Worker-Knoten) anmelden und Jobs für die Ausführung von Workloads für maschinelles Lernen planen. Weitere Informationen hierzu finden Sie unter Jobs in SageMaker HyperPod Clustern.

Resilienz gegen Hardwareausfälle

SageMaker HyperPod führt Integritätsprüfungen auf Clusterknoten durch und bietet eine Funktion zur automatischen Wiederaufnahme der Arbeitslast. Mit den Cluster-Resilienzfunktionen von HyperPod können Sie Ihre Arbeitslast ab dem letzten Checkpoint fortsetzen, den Sie gespeichert haben, nachdem fehlerhafte Knoten in Clustern mit mehr als 16 Knoten durch fehlerfreie ersetzt wurden. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Cluster-Resilienz.

Cluster protokollieren und verwalten

Sie können Metriken zur SageMaker HyperPod Ressourcennutzung und Lebenszyklusprotokolle in Amazon finden und SageMaker HyperPod Ressourcen verwalten CloudWatch, indem Sie sie taggen. Bei jedem CreateCluster API Lauf wird ein eigener Protokollstream erstellt, der im <cluster-name>-<timestamp> Format benannt ist. Im Protokollstream können Sie die Hostnamen, die Namen fehlgeschlagener Lebenszyklusskripts und die Ausgaben der fehlgeschlagenen Skripten wie stdout und überprüfenstderr. Weitere Informationen finden Sie unter SageMaker HyperPod Clusterverwaltung.

Kompatibel mit SageMaker KI-Tools

Mithilfe von SageMaker HyperPod SageMaker KI können Sie Cluster mit AWS optimierten Bibliotheken für kollektive Kommunikation konfigurieren, wie z. B. der SageMaker AI-Bibliothek für verteilte Datenparallelität (SMDDP). Die SMDDP Bibliothek implementiert den für die AWS Rechen- und Netzwerkinfrastruktur optimierten AllGather Betrieb für die leistungsstärksten SageMaker KI-Instanzen für maschinelles Lernen, die auf A100 basieren. NVIDIA GPUs Weitere Informationen hierzu finden Sie unter Führen Sie verteilte Trainingsworkloads mit aktiviertem Slurm aus HyperPod.