As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas da versão
Consulte as notas de versão a seguir para acompanhar as atualizações mais recentes do treinamento SageMaker HyperPod sem pontos de verificação.
O treinamento SageMaker HyperPod sem pontos de verificação v1.0.0
Data: 03 de dezembro de 2025
SageMaker HyperPod Características de treinamento sem pontos de verificação
-
Melhorias na inicialização da comunicação coletiva: oferece novos métodos de inicialização, sem raiz e TCPStoreless para NCCL e Gloo.
-
Carregador de dados mapeado na memória (MMAP): armazena em cache (persiste) lotes pré-buscados para que estejam disponíveis mesmo quando uma falha causa a reinicialização do trabalho de treinamento.
-
Checkpointless: permite uma recuperação mais rápida de falhas de treinamento em cluster em ambientes de treinamento distribuídos em grande escala, fazendo otimizações em nível de estrutura
-
Construído em Nvidia Nemo e PyTorch Lightning: aproveita essas estruturas poderosas para um treinamento de modelos eficiente e flexível
SageMaker HyperPod Contêiner Docker de treinamento sem ponto de verificação
O treinamento Checkpointless on HyperPod é baseado na estrutura da NeMo NVIDIA
Disponibilidade
Atualmente, as imagens só estão disponíveis em:
eu-north-1 ap-south-1 us-east-2 eu-west-1 eu-central-1 sa-east-1 us-east-1 eu-west-2 ap-northeast-1 us-west-2 us-west-1 ap-southeast-1 ap-southeast-2
mas não está disponível nas seguintes 3 regiões opcionais:
ap-southeast-3 ap-southeast-4 eu-south-2
Detalhes do contêiner
Contêiner Docker de treinamento sem ponto de verificação para PyTorch v2.6.0 com CUDA v12.9
963403601044.dkr.ecr.eu-north-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 423350936952.dkr.ecr.ap-south-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 556809692997.dkr.ecr.us-east-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 942446708630.dkr.ecr.eu-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 391061375763.dkr.ecr.eu-central-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 311136344257.dkr.ecr.sa-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 327873000638.dkr.ecr.us-east-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 016839105697.dkr.ecr.eu-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 356859066553.dkr.ecr.ap-northeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 920498770698.dkr.ecr.us-west-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 827510180725.dkr.ecr.us-west-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 885852567298.dkr.ecr.ap-southeast-1.amazonaws.com/hyperpod-checkpointless-training:v1.0.0 304708117039.dkr.ecr.ap-southeast-2.amazonaws.com/hyperpod-checkpointless-training:v1.0.0
Pacotes pré-instalados
PyTorch: v2.6.0 CUDA: v12.9 NCCL: v2.27.5 EFA: v1.43.0 AWS-OFI-NCCL v1.16.0 Libfabric version 2.1 Megatron v0.15.0 Nemo v2.6.0rc0