Uso del operador de entrenamiento HyperPod - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso del operador de entrenamiento HyperPod

El operador de SageMaker HyperPod formación de Amazon te ayuda a acelerar el desarrollo de modelos de IA generativa mediante la gestión eficiente de la formación distribuida en grandes clústeres de GPU. Incorpora funciones inteligentes de recuperación de fallos, detección de tareas pendientes y gestión a nivel de procesos que minimizan las interrupciones en la formación y reducen los costes. A diferencia de la infraestructura de formación tradicional, que requiere que el trabajo se reinicie por completo cuando se producen fallos, este operador implementa la recuperación del proceso quirúrgico para que sus trabajos de formación se desarrollen sin problemas.

El operador también utiliza las funciones de monitoreo y observabilidad HyperPod del estado, lo que proporciona visibilidad en tiempo real de la ejecución de la capacitación y monitorea automáticamente métricas críticas, como los picos de pérdidas y la degradación del rendimiento. Puede definir las políticas de recuperación mediante sencillas configuraciones de YAML sin cambios en el código, lo que le permitirá responder rápidamente a estados de entrenamiento irrecuperables y recuperarse de ellos. Estas capacidades de supervisión y recuperación funcionan en conjunto para mantener un rendimiento de entrenamiento óptimo y, al mismo tiempo, minimizar los gastos operativos.

Si bien no se requiere Kueue para esta formación de operadores, el administrador del clúster puede instalarlo y configurarlo para mejorar las capacidades de programación de tareas. Para obtener más información, consulte la documentación oficial de Kueue.

nota

Para utilizar el operador de formación, debe utilizar la última versión de la HyperPod AMI. Para actualizar, utilice la operación UpdateClusterSoftwareAPI. Si utilizas la gobernanza de HyperPod tareas, también debe ser la versión más reciente.

Versiones compatibles

El operador de HyperPod formación solo funciona con versiones específicas de Kubernetes, Kueue y. HyperPod Consulta la siguiente lista para ver la lista completa de versiones compatibles.