Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Versionshinweise
In den folgenden Versionshinweisen finden Sie die neuesten Updates für das SageMaker HyperPod Checkpointless-Training.
Das SageMaker HyperPod Checkpointless-Training v1.0.0
Datum: 03. Dezember 2025
SageMaker HyperPod Funktionen für das Training ohne Checkpoint
-
Verbesserungen der kollektiven Kommunikationsinitialisierung: Bietet neuartige Initialisierungsmethoden, Rootless und für NCCL und Gloo. TCPStoreless
-
Memory-Mapped (MMAP) Dataloader: Speichert vorab abgerufene Batches im Cache (persistiert), sodass sie auch dann verfügbar sind, wenn ein Fehler einen Neustart des Trainingsjobs verursacht.
-
Checkpointless: Ermöglicht eine schnellere Wiederherstellung nach Cluster-Trainingsfehlern in großen, verteilten Trainingsumgebungen durch Optimierungen auf Framework-Ebene
-
Basiert auf Nvidia Nemo und PyTorch Lightning: Nutzt diese leistungsstarken Frameworks für effizientes und flexibles Modelltraining
SageMaker HyperPod Docker-Container für zielloses Training
Checkpointless Training on HyperPod basiert auf dem NVIDIA-Framework. NeMo
Verfügbarkeit
Derzeit sind Bilder nur verfügbar in:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
aber nicht verfügbar in den folgenden 3 Opt-in-Regionen:
ap-southeast-3 ap-southeast-4 eu-south-2
Details zum Container
Docker-Container für Checkpointless-Training für PyTorch v2.6.0 mit CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
Vorinstallierte Pakete
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0