Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Amazon SageMaker HyperPod
SageMaker HyperPod hilft Ihnen bei der Bereitstellung robuster Cluster für die Ausführung von Workloads für maschinelles Lernen (ML) und die Entwicklung von state-of-the-art Modellen wie großen Sprachmodellen (LLMs), Diffusionsmodellen und Basismodellen (FMs). Es beschleunigt die Entwicklung von, FMs indem der undifferenzierte Aufwand für den Aufbau und die Wartung großer Rechencluster entfällt, die von Tausenden von Beschleunigern wie AWS Trainium und NVIDIA A100 und H100 Graphical Processing Units () unterstützt werden. GPUs Wenn Beschleuniger ausfallen, erkennen und ersetzen die Resilienzfunktionen von SageMaker HyperPod Monitor the Cluster Instances die fehlerhafte Hardware automatisch im laufenden Betrieb, sodass Sie sich auf die Ausführung von ML-Workloads konzentrieren können.
Überprüfen Sie zunächst eine der folgenden Orchestrator-OptionenVoraussetzungen für die Verwendung von SageMaker HyperPod, die von unterstützt werdenAWS Identity and Access Management für SageMaker HyperPod, und richten Sie sie ein und wählen Sie sie aus. SageMaker HyperPod
Slurm-Unterstützung in SageMaker HyperPod
SageMaker HyperPod bietet Unterstützung für die Ausführung von Machine-Learning-Workloads auf belastbaren Clustern durch die Integration mit Slurm, einem Open-Source-Workload-Manager. Die Slurm-Unterstützung in SageMaker HyperPod ermöglicht eine nahtlose Cluster-Orchestrierung durch die Slurm-Cluster-Konfiguration, sodass Sie Head-, Anmelde- und Worker-Knoten auf den SageMaker HyperPod Clustern einrichten können. Diese Integration erleichtert auch die SLURM-basierte Jobplanung für die Ausführung von ML-Workloads auf dem Cluster sowie den direkten Zugriff auf Clusterknoten für die Jobplanung. Mit HyperPod der Unterstützung für die Lebenszykluskonfiguration können Sie die Computerumgebung der Cluster an Ihre spezifischen Anforderungen anpassen. Darüber hinaus können Sie durch die Nutzung der verteilten Schulungsbibliotheken von Amazon SageMaker AI die Leistung der Cluster in Bezug auf AWS Rechen- und Netzwerkressourcen optimieren. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Slurm.
Amazon EKS-Unterstützung in SageMaker HyperPod
SageMaker HyperPod lässt sich auch in Amazon EKS integrieren, um ein umfangreiches Training von Basismodellen auf langlebigen und belastbaren Rechenclustern zu ermöglichen. Auf diese Weise können Cluster-Administratoren HyperPod Cluster bereitstellen und sie an eine EKS-Steuerebene anhängen, was ein dynamisches Kapazitätsmanagement, direkten Zugriff auf Cluster-Instances und Resilienzfunktionen ermöglicht. Für Datenwissenschaftler HyperPod ermöglicht die Amazon EKS-Unterstützung die Ausführung containerisierter Workloads für das Training von Basismodellen, Inferenzen auf dem EKS-Cluster und die Nutzung der Funktion zur automatischen Wiederaufnahme von Jobs für Kubeflow-Schulungen. PyTorch Die Architektur beinhaltet eine 1-zu-1-Zuordnung zwischen einem EKS-Cluster (Kontrollebene) und einem HyperPod Cluster (Worker-Knoten) innerhalb einer VPC und bietet so eine eng integrierte Lösung für die Ausführung umfangreicher ML-Workloads. Weitere Informationen hierzu finden Sie unter Orchestrierung von SageMaker HyperPod Clustern mit Amazon EKS.
UltraServers mit HyperPod
HyperPod mit UltraServers liefert KI-Rechenleistung durch die Integration von NVIDIA-Superchips in eine zusammenhängende, leistungsstarke Infrastruktur. Jede Instanz NVL72 UltraServer kombiniert 18 Instanzen mit 72 GPUs miteinander verbundenen NVIDIA-Blackwell-Instanzen NVLink, was im Vergleich zu Instances der vorherigen Generation schnellere Inferenzen und eine schnellere Trainingsleistung ermöglicht. Diese Architektur ist besonders nützlich für Unternehmen, die mit Basismodellen mit Billionen Parametern arbeiten, da der vereinheitlichte GPU-Speicher es ermöglicht, dass ganze Modelle in einer einzigen NVLink Domäne verbleiben, wodurch knotenübergreifende Netzwerkengpässe vermieden werden. HyperPod verstärkt diesen Hardware-Vorteil durch eine intelligente topologieorientierte Planung, die die Workload-Platzierung optimiert, durch automatischen Instanzaustausch zur Minimierung von Unterbrechungen und durch flexible Bereitstellungsoptionen, die sowohl dedizierte als auch gemeinsam genutzte Ressourcenkonfigurationen unterstützen. Für Teams, die die Grenzen von Modellgröße und Leistung überschreiten, bietet diese Integration die Rechengrundlage, die erforderlich ist, um die fortschrittlichsten KI-Modelle mit beispielloser Effizienz zu trainieren und einzusetzen.
SageMaker HyperPod optimiert automatisch die Instanzplatzierung auf Ihrem System. UltraServers HyperPod Priorisiert standardmäßig alle Instanzen in einer, UltraServer bevor eine andere verwendet wird. Wenn Sie beispielsweise 14 Instanzen haben möchten und 2 UltraServers in Ihrem Plan haben, verwendet SageMaker KI alle Instanzen der ersten Instanz. UltraServer Wenn Sie 20 Instanzen benötigen, verwendet SageMaker KI alle 18 Instanzen in der ersten Instanz UltraServer und dann 2 weitere Instanzen in der zweiten.
AWS-Regionen unterstützt von SageMaker HyperPod
SageMaker HyperPod ist im Folgenden verfügbar AWS-Regionen.
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-south-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-3
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1