Notas de la versión - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Notas de la versión

Consulte las siguientes notas de la versión para realizar un seguimiento de las últimas actualizaciones de la formación SageMaker HyperPod sin puntos de control.

El entrenamiento sin SageMaker HyperPod puntos de control (versión 1.0.0)

Fecha: 3 de diciembre de 2025

SageMaker HyperPod Funciones de entrenamiento sin puntos de control

  • Mejoras en la inicialización de la comunicación colectiva: ofrece métodos de inicialización novedosos, como Rootless y para NCCL y TCPStoreless Gloo.

  • Cargador de datos mapeado en memoria (MMAP): almacena en caché (conserva) los lotes precargados para que estén disponibles incluso cuando un fallo provoque que se reinicie el trabajo de formación.

  • Sin puntos de control: permite una recuperación más rápida de los errores de entrenamiento en clústeres en entornos de entrenamiento distribuidos a gran escala mediante optimizaciones a nivel del marco

  • Basado en Nvidia Nemo y PyTorch Lightning: aprovecha estos potentes marcos para un entrenamiento de modelos eficiente y flexible

SageMaker HyperPod Contenedor Docker de entrenamiento sin control

Checkpointless Training on HyperPod se basa en el marco de NVIDIA. NeMo HyperPod El objetivo de checkpointless training es recuperarse con mayor rapidez de los fallos de formación en clústeres en entornos de formación distribuidos a gran escala. Para ello, se realizan optimizaciones a nivel del marco de trabajo que se imparten en un contenedor base que contiene la imagen base con la NCCL y las optimizaciones. PyTorch

Disponibilidad.

Actualmente, las imágenes solo están disponibles en:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

pero no están disponibles en las siguientes 3 regiones de suscripción voluntaria:

ap-southeast-3 ap-southeast-4 eu-south-2

Detalles del contenedor

Contenedor Docker de entrenamiento sin control para PyTorch la versión 2.6.0 con la versión 12.9 de CUDA

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

Paquetes preinstalados

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0