Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Optimización de entrenamiento distribuido

Modo de enfoque
Optimización de entrenamiento distribuido - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Personalice los hiperparámetros para su caso de uso y sus datos para obtener la mejor eficiencia de escalado. En el siguiente análisis, destacamos algunas de las variables de formación más impactantes y proporcionamos referencias a state-of-the-art las implementaciones para que pueda obtener más información sobre sus opciones. Además, le recomendamos que consulte la documentación de entrenamiento distribuido de su marco preferido.

BatchSize

SageMaker Los kits de herramientas distribuidos por IA generalmente te permiten entrenar en lotes más grandes. Por ejemplo, si un modelo cabe en un solo dispositivo pero solo se puede entrenar con un tamaño de lote pequeño, utilizar el entrenamiento de paralelismo de modelos o el entrenamiento de paralelismo de datos le permitirá experimentar con lotes más grandes.

Tenga en cuenta que el tamaño del lote influye directamente en la precisión del modelo al controlar la cantidad de ruido en la actualización del modelo en cada iteración. Al aumentar el tamaño del lote se reduce la cantidad de ruido en la estimación del gradiente, lo que puede resultar beneficioso cuando se trata de lotes de tamaños muy pequeños, pero puede reducir la precisión del modelo a medida que el tamaño del lote vaya aumentando hasta valores grandes. 

sugerencia

Ajuste los hiperparámetros para garantizar que el modelo alcance una convergencia satisfactoria a medida que vaya aumentado el tamaño del lote.

Se han desarrollado varias técnicas para mantener una buena convergencia de modelos cuando se aumenta el lote.

Tamaño del minilote

En el SGD, el tamaño del minilote cuantifica la cantidad de ruido presente en la estimación del gradiente. Un minilote pequeño produce un gradiente de minilotes muy ruidoso, que no es representativo del gradiente real del conjunto de datos. Un minilote grande da como resultado un gradiente de minilotes cercano al gradiente real en todo el conjunto de datos y, potencialmente, no lo suficientemente ruidoso, por lo que es probable que permanezca atrapado en mínimos irrelevantes.

Para obtener más información acerca de estas técnicas, consulte los siguientes documentos:

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.