Optimización de entrenamiento distribuido

Personalice los hiperparámetros para su caso de uso y sus datos para obtener la mejor eficiencia de escalado. En el siguiente análisis, destacamos algunas de las variables de formación más impactantes y proporcionamos referencias a state-of-the-art las implementaciones para que pueda obtener más información sobre sus opciones. Además, le recomendamos que consulte la documentación de entrenamiento distribuido de su marco preferido.

BatchSize

SageMaker Los kits de herramientas distribuidos por IA generalmente te permiten entrenar en lotes más grandes. Por ejemplo, si un modelo cabe en un solo dispositivo pero solo se puede entrenar con un tamaño de lote pequeño, utilizar el entrenamiento de paralelismo de modelos o el entrenamiento de paralelismo de datos le permitirá experimentar con lotes más grandes.

Tenga en cuenta que el tamaño del lote influye directamente en la precisión del modelo al controlar la cantidad de ruido en la actualización del modelo en cada iteración. Al aumentar el tamaño del lote se reduce la cantidad de ruido en la estimación del gradiente, lo que puede resultar beneficioso cuando se trata de lotes de tamaños muy pequeños, pero puede reducir la precisión del modelo a medida que el tamaño del lote vaya aumentando hasta valores grandes.

sugerencia

Ajuste los hiperparámetros para garantizar que el modelo alcance una convergencia satisfactoria a medida que vaya aumentado el tamaño del lote.

Se han desarrollado varias técnicas para mantener una buena convergencia de modelos cuando se aumenta el lote.

Tamaño del minilote

En el SGD, el tamaño del minilote cuantifica la cantidad de ruido presente en la estimación del gradiente. Un minilote pequeño produce un gradiente de minilotes muy ruidoso, que no es representativo del gradiente real del conjunto de datos. Un minilote grande da como resultado un gradiente de minilotes cercano al gradiente real en todo el conjunto de datos y, potencialmente, no lo suficientemente ruidoso, por lo que es probable que permanezca atrapado en mínimos irrelevantes.

Para obtener más información acerca de estas técnicas, consulte los siguientes documentos:

SGD en minilotes grandes y precisos: entrenamiento ImageNet en 1 hora, Goya et al.
PowerAI DDL, Cho et al.
Amplíe el tamaño del SGD para minilotes de gran tamaño: formación residual en red a ImageNet -1K con una precisión mejorada y un menor tiempo de entrenamiento, Codreanu et al.
ImageNet Entrenando en minutos, You et al.
Large Batch Training of Convolutional Networks, You et al.
Large Batch Optimization for Deep Learning: Training BERT in 76 Minutes, You et al.
Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes, Zheng et al.
Deep Gradient Compression, Lin et al.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Estrategias de entrenamiento distribuido

Escalado del entrenamiento