Treinamento sem controle na Amazon SageMaker HyperPod - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Treinamento sem controle na Amazon SageMaker HyperPod

O treinamento Checkpointless na Amazon SageMaker HyperPod permite uma recuperação mais rápida de falhas na infraestrutura de treinamento. A documentação a seguir ajuda você a começar com o treinamento sem pontos de verificação e o ajuste fino dos modelos compatíveis. NeMo

O treinamento Checkpointless tem os seguintes pré-requisitos:

O treinamento do Checkpointless foi SageMaker HyperPod desenvolvido com base no Guia do usuário do NVIDIA NeMo Framework. Você pode realizar um treinamento sem pontos de verificação com receitas SageMaker HyperPod pré-criadas. Se você estiver familiarizado NeMo, o processo de usar as receitas de treinamento sem pontos de verificação é semelhante. Com pequenas alterações, você pode começar a treinar um modelo usando recursos de treinamento sem pontos de verificação que permitem que você se recupere rapidamente de falhas de treinamento.

As HyperPod receitas a seguir são pré-configuradas com otimizações de treinamento sem pontos de verificação. Você pode especificar seus caminhos de dados como parte da receita e usar o script de inicialização associado para executar o treinamento (consulte o guia de início rápido abaixo):

Modelo Método Tamanho Nodes Instância Acelerador Fórmula Script Tutorial
PERDA DE PESO Exemplo completo de ajuste fino 120b 16 p5.48xlarge GPU H100 link link link
PERDA DE PESO Exemplo de Lora 120b 2 p5.48xlarge GPU H100 link link link
Lhama3 Exemplo de pré-treinamento 70b 16 p5.48xlarge GPU H100 link link link
Lhama3 Exemplo de Lora 70b 2 p5.48xlarge GPU H100 link link link

O guia de início rápido a seguir fornece tutoriais para usar receitas de treinamento sem pontos de verificação:

Exemplos de introdução

Se você quiser pré-treinar ou ajustar modelos personalizados, consulte. Tutoriais - Pré-treinamento ou ajuste fino de modelos personalizados do Amazon SageMaker HyperPod Checkpointless

Para saber mais sobre a incorporação de componentes específicos de treinamento sem pontos de verificação,. HyperPod recursos de treinamento sem pontos de verificação