As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Treinamento sem controle na Amazon SageMaker HyperPod
O treinamento Checkpointless na Amazon SageMaker HyperPod permite uma recuperação mais rápida de falhas na infraestrutura de treinamento. A documentação a seguir ajuda você a começar com o treinamento sem pontos de verificação e o ajuste fino dos modelos compatíveis. NeMo
O treinamento Checkpointless tem os seguintes pré-requisitos:
-
Instalar do operador de treinamento. Você deve instalar a versão v1.2.0 ou superior.
O treinamento do Checkpointless foi SageMaker HyperPod desenvolvido com base no Guia do usuário do NVIDIA NeMo Framework
As HyperPod receitas a seguir são pré-configuradas com otimizações de treinamento sem pontos de verificação. Você pode especificar seus caminhos de dados como parte da receita e usar o script de inicialização associado para executar o treinamento (consulte o guia de início rápido abaixo):
| Modelo | Método | Tamanho | Nodes | Instância | Acelerador | Fórmula | Script | Tutorial |
|---|---|---|---|---|---|---|---|---|
| PERDA DE PESO | Exemplo completo de ajuste fino | 120b | 16 | p5.48xlarge | GPU H100 | link |
link |
link |
| PERDA DE PESO | Exemplo de Lora | 120b | 2 | p5.48xlarge | GPU H100 | link |
link |
link |
| Lhama3 | Exemplo de pré-treinamento | 70b | 16 | p5.48xlarge | GPU H100 | link |
link |
link |
| Lhama3 | Exemplo de Lora | 70b | 2 | p5.48xlarge | GPU H100 | link |
link |
link |
O guia de início rápido a seguir fornece tutoriais para usar receitas de treinamento sem pontos de verificação:
Exemplos de introdução
-
Tutoriais - Amazon SageMaker HyperPod Checkpointless Full Finetuning GPT OSS 120b
-
Tutoriais - Amazon SageMaker HyperPod Checkpointless PEFT-Lora GPT OSS 120b
-
Tutoriais - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Tutoriais - Amazon SageMaker HyperPod Checkpointless PEFT-lora Llama 3 70b
Se você quiser pré-treinar ou ajustar modelos personalizados, consulte. Tutoriais - Pré-treinamento ou ajuste fino de modelos personalizados do Amazon SageMaker HyperPod Checkpointless
Para saber mais sobre a incorporação de componentes específicos de treinamento sem pontos de verificação,. HyperPod recursos de treinamento sem pontos de verificação