Formación sin control en Amazon SageMaker HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Formación sin control en Amazon SageMaker HyperPod

La formación sin control en Amazon SageMaker HyperPod permite una recuperación más rápida de los fallos en la infraestructura de formación. La siguiente documentación le ayuda a empezar a impartir formación sin problemas y a ajustar los modelos compatibles. NeMo

La formación en Checkpointless tiene los siguientes requisitos previos:

Checkpointless Training on SageMaker HyperPod se basa en la guía del usuario de NVIDIA NeMo Framework. Puedes realizar un entrenamiento sin controles con recetas creadas previamente. SageMaker HyperPod Si estás familiarizado con ellas NeMo, el proceso de uso de las recetas de entrenamiento sin puntos de control es similar. Con pequeños cambios, puedes empezar a entrenar un modelo utilizando funciones de entrenamiento sin puntos de control que te permiten recuperarte rápidamente de los errores de entrenamiento.

Las siguientes HyperPod recetas vienen preconfiguradas con optimizaciones de entrenamiento sin puntos de control. Puedes especificar tus rutas de datos como parte de la receta y usar el script de inicio asociado para ejecutar el entrenamiento (consulta la guía de inicio rápido que aparece a continuación):

Modelo Método Tamaño Nodos Instancia Acelerador Fórmula Script Tutorial
TENGO UN JEFE Ejemplo completo de ajuste 120b 16 p5.48xlarge GPU H100 link link link
TENGO UN JEFE Ejemplo de Lora 120 b 2 p5.48xlarge GPU H100 link link link
Llama 3 Ejemplo de Pretrain 70b 16 p5.48xlarge GPU H100 link link link
Llama 3 Lora: ejemplo 70 b 2 p5.48xlarge GPU H100 link link link

La siguiente guía de inicio rápido proporciona tutoriales para utilizar recetas de formación sin puntos de control:

Ejemplos de introducción

Si quieres preentrenar o ajustar modelos personalizados, consulta. Tutoriales: Amazon SageMaker HyperPod Checkpointless: preentrenamiento o ajuste de modelos personalizados

Para obtener más información sobre la incorporación de componentes específicos de capacitación sin puntos de control,. HyperPod funciones de entrenamiento sin puntos de control