Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Mit dem HyperPod Trainingsoperator
Der Amazon SageMaker HyperPod Training Operator hilft Ihnen dabei, die Entwicklung generativer KI-Modelle zu beschleunigen, indem er verteilte Schulungen über große GPU-Cluster effizient verwaltet. Es bietet intelligente Funktionen zur Fehlerbehebung, zur Erkennung von Blockierungen und Verwaltungsfunktionen auf Prozessebene, die Trainingsunterbrechungen minimieren und Kosten senken. Im Gegensatz zur herkömmlichen Trainingsinfrastruktur, bei der der Job bei Ausfällen komplett neu gestartet werden muss, implementiert dieser Operator die Wiederherstellung chirurgischer Prozesse, um einen reibungslosen Ablauf Ihrer Trainingsaufgaben zu gewährleisten.
Der Bediener arbeitet auch mit HyperPod den Funktionen zur Gesundheitsüberwachung und Beobachtbarkeit, sodass er in Echtzeit Einblick in die Trainingsausführung erhält und kritische Messwerte wie Verlustspitzen und Durchsatzverschlechterungen automatisch überwacht. Sie können Wiederherstellungsrichtlinien mithilfe einfacher YAML-Konfigurationen ohne Codeänderungen definieren. So können Sie schnell auf Trainingszustände reagieren, die nicht wiederhergestellt werden können, und diese wieder herstellen. Diese Überwachungs- und Wiederherstellungsfunktionen arbeiten zusammen, um eine optimale Trainingsleistung aufrechtzuerhalten und gleichzeitig den betrieblichen Aufwand zu minimieren.
Kueue ist für diesen Schulungsoperator zwar nicht erforderlich, Ihr Clusteradministrator kann es jedoch installieren und konfigurieren, um die Funktionen zur Jobplanung zu verbessern. Weitere Informationen finden Sie in der offiziellen Dokumentation für Kueue
Anmerkung
Um den Training Operator verwenden zu können, müssen Sie die neueste HyperPod AMI-Version verwenden. Verwenden Sie für das Upgrade den UpdateClusterSoftwareAPI-Vorgang. Wenn Sie HyperPod Task Governance verwenden, muss es sich auch um die neueste Version handeln.
Unterstützte Versionen
Der HyperPod Trainingsoperator funktioniert nur mit bestimmten Versionen von Kubernetes, Kueue und. HyperPod In der folgenden Liste finden Sie die vollständige Liste der kompatiblen Versionen.
-
Unterstützte Kubernetes-Versionen — 1.28, 1.29, 1.30, 1.31 oder 1.32
-
Die neueste HyperPod AMI-Version. Verwenden Sie die UpdateClusterSoftwareAPI, um auf die neueste AMI-Version zu aktualisieren.