Notas da versão - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas da versão

Consulte as notas de versão a seguir para acompanhar as atualizações mais recentes do treinamento SageMaker HyperPod sem pontos de verificação.

O treinamento SageMaker HyperPod sem pontos de verificação v1.0.0

Data: 03 de dezembro de 2025

SageMaker HyperPod Características de treinamento sem pontos de verificação

  • Melhorias na inicialização da comunicação coletiva: oferece novos métodos de inicialização, sem raiz e TCPStoreless para NCCL e Gloo.

  • Carregador de dados mapeado na memória (MMAP): armazena em cache (persiste) lotes pré-buscados para que estejam disponíveis mesmo quando uma falha causa a reinicialização do trabalho de treinamento.

  • Checkpointless: permite uma recuperação mais rápida de falhas de treinamento em cluster em ambientes de treinamento distribuídos em grande escala, fazendo otimizações em nível de estrutura

  • Construído em Nvidia Nemo e PyTorch Lightning: aproveita essas estruturas poderosas para um treinamento de modelos eficiente e flexível

SageMaker HyperPod Contêiner Docker de treinamento sem ponto de verificação

O treinamento Checkpointless on HyperPod é baseado na estrutura da NeMo NVIDIA. HyperPod O treinamento checkpointless visa se recuperar mais rapidamente de falhas de treinamento de cluster em ambientes de treinamento distribuídos em grande escala, fazendo otimizações em nível de estrutura que serão fornecidas em um contêiner básico contendo a imagem base com NCCL e otimizações. PyTorch

Disponibilidade

Atualmente, as imagens só estão disponíveis em:

eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2

mas não está disponível nas seguintes 3 regiões opcionais:

ap-southeast-3 ap-southeast-4 eu-south-2

Detalhes do contêiner

Contêiner Docker de treinamento sem ponto de verificação para PyTorch v2.6.0 com CUDA v12.9

963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0

Pacotes pré-instalados

PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0