Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Personalice los hiperparámetros para su caso de uso y sus datos para obtener la mejor eficiencia de escalado. En el siguiente análisis, destacamos algunas de las variables de formación más impactantes y proporcionamos referencias a state-of-the-art las implementaciones para que pueda obtener más información sobre sus opciones. Además, le recomendamos que consulte la documentación de entrenamiento distribuido de su marco preferido.
BatchSize
SageMaker Los kits de herramientas distribuidos por IA generalmente te permiten entrenar en lotes más grandes. Por ejemplo, si un modelo cabe en un solo dispositivo pero solo se puede entrenar con un tamaño de lote pequeño, utilizar el entrenamiento de paralelismo de modelos o el entrenamiento de paralelismo de datos le permitirá experimentar con lotes más grandes.
Tenga en cuenta que el tamaño del lote influye directamente en la precisión del modelo al controlar la cantidad de ruido en la actualización del modelo en cada iteración. Al aumentar el tamaño del lote se reduce la cantidad de ruido en la estimación del gradiente, lo que puede resultar beneficioso cuando se trata de lotes de tamaños muy pequeños, pero puede reducir la precisión del modelo a medida que el tamaño del lote vaya aumentando hasta valores grandes.
sugerencia
Ajuste los hiperparámetros para garantizar que el modelo alcance una convergencia satisfactoria a medida que vaya aumentado el tamaño del lote.
Se han desarrollado varias técnicas para mantener una buena convergencia de modelos cuando se aumenta el lote.
Tamaño del minilote
En el SGD, el tamaño del minilote cuantifica la cantidad de ruido presente en la estimación del gradiente. Un minilote pequeño produce un gradiente de minilotes muy ruidoso, que no es representativo del gradiente real del conjunto de datos. Un minilote grande da como resultado un gradiente de minilotes cercano al gradiente real en todo el conjunto de datos y, potencialmente, no lo suficientemente ruidoso, por lo que es probable que permanezca atrapado en mínimos irrelevantes.
Para obtener más información acerca de estas técnicas, consulte los siguientes documentos:
-
SGD en minilotes grandes y precisos: entrenamiento ImageNet en 1
hora, Goya et al. -
PowerAI DDL
, Cho et al. -
Large Batch Training of Convolutional Networks
, You et al. -
Large Batch Optimization for Deep Learning: Training BERT in 76 Minutes
, You et al. -
Accelerated Large Batch Optimization of BERT Pretraining in 54 minutes
, Zheng et al. -
Deep Gradient Compression
, Lin et al.