Mit dem HyperPod Trainingsoperator - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Mit dem HyperPod Trainingsoperator

Der Amazon SageMaker HyperPod Training Operator hilft Ihnen dabei, die Entwicklung generativer KI-Modelle zu beschleunigen, indem er verteilte Schulungen über große GPU-Cluster effizient verwaltet. Es bietet intelligente Funktionen zur Fehlerbehebung, zur Erkennung von Blockierungen und Verwaltungsfunktionen auf Prozessebene, die Trainingsunterbrechungen minimieren und Kosten senken. Im Gegensatz zur herkömmlichen Trainingsinfrastruktur, bei der der Job bei Ausfällen komplett neu gestartet werden muss, implementiert dieser Operator die Wiederherstellung chirurgischer Prozesse, um einen reibungslosen Ablauf Ihrer Trainingsaufgaben zu gewährleisten.

Der Bediener arbeitet auch mit HyperPod den Funktionen zur Gesundheitsüberwachung und Beobachtbarkeit, sodass er in Echtzeit Einblick in die Trainingsausführung erhält und kritische Messwerte wie Verlustspitzen und Durchsatzverschlechterungen automatisch überwacht. Sie können Wiederherstellungsrichtlinien mithilfe einfacher YAML-Konfigurationen ohne Codeänderungen definieren. So können Sie schnell auf Trainingszustände reagieren, die nicht wiederhergestellt werden können, und diese wieder herstellen. Diese Überwachungs- und Wiederherstellungsfunktionen arbeiten zusammen, um eine optimale Trainingsleistung aufrechtzuerhalten und gleichzeitig den betrieblichen Aufwand zu minimieren.

Kueue ist für diesen Schulungsoperator zwar nicht erforderlich, Ihr Clusteradministrator kann es jedoch installieren und konfigurieren, um die Funktionen zur Jobplanung zu verbessern. Weitere Informationen finden Sie in der offiziellen Dokumentation für Kueue.

Anmerkung

Um den Training Operator verwenden zu können, müssen Sie die neueste HyperPod AMI-Version verwenden. Verwenden Sie für das Upgrade den UpdateClusterSoftwareAPI-Vorgang. Wenn Sie HyperPod Task Governance verwenden, muss es sich auch um die neueste Version handeln.

Unterstützte Versionen

Der HyperPod Trainingsoperator funktioniert nur mit bestimmten Versionen von Kubernetes, Kueue und. HyperPod In der folgenden Liste finden Sie die vollständige Liste der kompatiblen Versionen.