Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos SageMaker distribuidos - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Realice un entrenamiento distribuido con la biblioteca de paralelismo de datos SageMaker distribuidos

La biblioteca de paralelismo de datos SageMaker distribuido (SMDDP) amplía las capacidades de SageMaker formación en modelos de aprendizaje profundo con una eficiencia de escalado casi lineal al proporcionar implementaciones de operaciones de comunicación colectiva optimizadas para la infraestructura. AWS

Al entrenar modelos de aprendizaje automático (ML) de gran tamaño, como los modelos de lenguaje grandes (LLM) y los modelos de difusión, en un enorme conjunto de datos de entrenamiento, los profesionales del aprendizaje automático utilizan grupos de aceleradores y técnicas de entrenamiento distribuidas para reducir el tiempo de entrenamiento o resolver las restricciones de memoria de los modelos que no caben en la memoria de cada GPU. Los profesionales del aprendizaje automático suelen empezar con varios aceleradores en una sola instancia y, después, escalarlos a grupos de instancias a medida que aumentan sus requisitos de carga de trabajo. A medida que aumenta el tamaño del clúster, también aumenta la sobrecarga de comunicación entre varios nodos, lo que se traduce en una disminución del rendimiento computacional general.

Para solucionar estos problemas de sobrecarga y memoria, la biblioteca SMDDP ofrece lo siguiente.

  • La biblioteca SMDDP optimiza los trabajos de formación para la infraestructura de AWS red y la topología de instancias de Amazon SageMaker ML.

  • La biblioteca SMDDP mejora la comunicación entre los nodos con implementaciones AllReduce y operaciones de comunicación AllGather colectiva optimizadas para la infraestructura. AWS

Para obtener más información sobre los detalles de las ofertas de bibliotecas SMDDP, consulte. Introducción a la biblioteca de paralelismo de datos SageMaker distribuidos

Para obtener más información sobre el entrenamiento con la estrategia modelo-paralelo que ofrece SageMaker, consulte también. Biblioteca de paralelismo de SageMaker modelos v1.x (Archivada)