SageMaker HyperPod

SageMaker HyperPod hilft Ihnen bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie Large Language Models (LLMs), Diffusionsmodellen und Foundation Models (FMs). Es beschleunigt die Entwicklung von FMs, indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern wie AWS Trainium und NVIDIA A100 und H100 Graphical Processing Units (GPUs) angetrieben werden. Wenn Beschleuniger ausfallen, erkennen und ersetzen selbstheilende Cluster die fehlerhafte Hardware automatisch im laufenden Betrieb, sodass Sie sich wochen- und monatelang ohne Unterbrechung darauf konzentrieren können, ML-Workloads auszuführen. Darüber hinaus können Sie mit SageMaker HyperPod Ihre Computerumgebung an Ihre Bedürfnisse anpassen und sie mit den von Amazon SageMaker verteilten Schulungsbibliotheken konfigurieren, um eine optimale Leistung zu erzielen AWS.

Betrieb von Clustern

Sie können SageMaker HyperPod Cluster grafisch über die Konsolenbenutzeroberfläche (UI) und programmgesteuert über die AWS Befehlszeilenschnittstelle (CLI) oder erstellen, konfigurieren und verwalten. AWS SDK for Python (Boto3) Mit Amazon VPC können Sie das Cluster-Netzwerk sichern und auch die Vorteile der Konfiguration Ihres Clusters mit Ressourcen in Ihrer VPC nutzen, z. B. Amazon FSx for Lustre, das den schnellsten Durchsatz bietet. Sie können Cluster-Instance-Gruppen auch unterschiedliche IAM-Rollen zuweisen und die Aktionen einschränken, die Ihre Cluster-Ressourcen und Benutzer ausführen können. Weitere Informationen hierzu finden Sie unter Bedienen SageMaker HyperPod.

Konfiguration Ihrer ML-Umgebung

SageMaker HyperPod läuftSageMaker HyperPod DLAMI, wodurch eine ML-Umgebung auf den HyperPod Clustern eingerichtet wird. Sie können zusätzliche Anpassungen für das DLAMI konfigurieren, indem Sie Lebenszyklusskripts zur Unterstützung Ihres Anwendungsfalls bereitstellen. Weitere Informationen zum Einrichten von Lebenszyklusskripten finden Sie unter und. Erste Schritte mit SageMaker HyperPod SageMaker HyperPod Bewährte Methoden zur Lebenszykluskonfiguration

Jobs planen

Nachdem Sie einen HyperPod Cluster erfolgreich erstellt haben, können sich Clusterbenutzer bei den Clusterknoten (wie dem Head- oder Controller-Knoten, dem Anmeldeknoten und dem Worker-Knoten) anmelden und Jobs für die Ausführung von Workloads für maschinelles Lernen planen. Weitere Informationen hierzu finden Sie unter Jobs auf SageMaker HyperPod Clustern ausführen.

Resilienz gegen Hardwareausfälle

SageMaker HyperPod führt Integritätsprüfungen auf Clusterknoten durch und bietet eine Funktion zur automatischen Wiederaufnahme der Arbeitslast. Mit den Cluster-Resilienzfunktionen von HyperPod können Sie Ihre Arbeitslast ab dem letzten Checkpoint fortsetzen, den Sie gespeichert haben, nachdem fehlerhafte Knoten in Clustern mit mehr als 16 Knoten durch fehlerfreie ersetzt wurden. Weitere Informationen hierzu finden Sie unter SageMaker HyperPod Cluster-Resilienz.

Cluster protokollieren und verwalten

Sie können Metriken zur SageMaker HyperPod Ressourcennutzung und Lebenszyklusprotokolle in Amazon finden und SageMaker HyperPod Ressourcen verwalten CloudWatch, indem Sie sie taggen. Jeder CreateCluster API-Lauf erstellt einen eigenen Protokollstream, der im <cluster-name>-<timestamp> Format benannt ist. Im Protokollstream können Sie die Hostnamen, die Namen fehlgeschlagener Lebenszyklusskripts und die Ausgaben der fehlgeschlagenen Skripts wie stdout und überprüfenstderr. Weitere Informationen finden Sie unter SageMaker HyperPod Clusterverwaltung.

Kompatibel mit SageMaker Tools

Mithilfe von SageMaker HyperPod können Sie Cluster mit AWS optimierten Bibliotheken für kollektive Kommunikation konfigurieren, die von angeboten werden SageMaker, z. B. die SMDDP-Bibliothek (SageMakerDistributed Data Parallelism). Die SMDDP-Bibliothek implementiert den auf die AWS Rechen- und Netzwerkinfrastruktur optimierten AllGather Betrieb für die leistungsfähigsten SageMaker maschinellen Lerninstanzen, die auf NVIDIA A100-GPUs basieren. Weitere Informationen hierzu finden Sie unter Führen Sie verteilte Trainingsworkloads mit aktiviertem Slurm aus SageMaker HyperPod.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Bieten Sie Benutzern Zugriff auf benutzerdefinierte Bilder

Voraussetzungen