Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Formación sin control en Amazon SageMaker HyperPod
La formación sin control en Amazon SageMaker HyperPod permite una recuperación más rápida de los fallos en la infraestructura de formación. La siguiente documentación le ayuda a empezar a impartir formación sin problemas y a ajustar los modelos compatibles. NeMo
La formación en Checkpointless tiene los siguientes requisitos previos:
-
Cómo empezar a utilizar el soporte de Amazon EKS en SageMaker HyperPod
-
Instalación del operador de entrenamiento. Debe instalar la versión 1.2.0 o superior.
Checkpointless Training on SageMaker HyperPod se basa en la guía del usuario de NVIDIA NeMo
Las siguientes HyperPod recetas vienen preconfiguradas con optimizaciones de entrenamiento sin puntos de control. Puedes especificar tus rutas de datos como parte de la receta y usar el script de inicio asociado para ejecutar el entrenamiento (consulta la guía de inicio rápido que aparece a continuación):
| Modelo | Método | Tamaño | Nodos | Instancia | Acelerador | Fórmula | Script | Tutorial |
|---|---|---|---|---|---|---|---|---|
| TENGO UN JEFE | Ejemplo completo de ajuste | 120b | 16 | p5.48xlarge | GPU H100 | link |
link |
link |
| TENGO UN JEFE | Ejemplo de Lora | 120 b | 2 | p5.48xlarge | GPU H100 | link |
link |
link |
| Llama 3 | Ejemplo de Pretrain | 70b | 16 | p5.48xlarge | GPU H100 | link |
link |
link |
| Llama 3 | Lora: ejemplo | 70 b | 2 | p5.48xlarge | GPU H100 | link |
link |
link |
La siguiente guía de inicio rápido proporciona tutoriales para utilizar recetas de formación sin puntos de control:
Ejemplos de introducción
-
Tutoriales - Optimización completa SageMaker HyperPod de Amazon Checkpointless (GPT OSS 120b)
-
Tutoriales - Amazon SageMaker HyperPod Checkpointless PEFT-Lora GPT OSS 120b
-
Tutoriales - Amazon SageMaker HyperPod Checkpointless Pretraining Llama 3 70b
-
Tutoriales - Amazon SageMaker HyperPod Checkpointless PEFT-Lora Llama 3 70b
Si quieres preentrenar o ajustar modelos personalizados, consulta. Tutoriales: Amazon SageMaker HyperPod Checkpointless: preentrenamiento o ajuste de modelos personalizados
Para obtener más información sobre la incorporación de componentes específicos de capacitación sin puntos de control,. HyperPod funciones de entrenamiento sin puntos de control