Características principales de la biblioteca de paralelismo de SageMaker modelos

La biblioteca de paralelismo de modelos de Amazon SageMaker AI ofrece estrategias de distribución y técnicas de ahorro de memoria, como el paralelismo de datos fragmentados, el paralelismo tensorial, la partición de modelos por capas para la programación de canalizaciones y los puntos de control. Las estrategias y técnicas de paralelismo de modelos ayudan a distribuir modelos grandes en varios dispositivos, a la vez que optimizan la velocidad de entrenamiento y el consumo de memoria. La biblioteca también proporciona funciones auxiliares de Python, administradores de contexto y funciones contenedoras para adaptar su script de entrenamiento a la división automática o manual de su modelo.

Cuando implementa el paralelismo de modelos en su trabajo de entrenamiento, mantiene el mismo flujo de trabajo de dos pasos que se muestra en la sección Ejecute un trabajo de SageMaker entrenamiento distribuido con paralelismo de modelos. Para adaptar el script de su entrenamiento, debe agregar cero o pocas líneas de código adicionales a su script de entrenamiento. Para iniciar un trabajo de entrenamiento con el script de entrenamiento adaptado, debe configurar los parámetros de configuración de la distribución para activar las funciones de ahorro de memoria o transferir valores según el grado de paralelismo.

Para empezar con los ejemplos, consulte los siguientes cuadernos de Jupyter, que muestran cómo utilizar la biblioteca de paralelismo de modelos. SageMaker

Para profundizar en las características principales de la biblioteca, consulte los siguientes temas.

nota

Las bibliotecas de formación SageMaker distribuidas están disponibles a través de los contenedores de PyTorch aprendizaje AWS profundo de Hugging Face TensorFlow y en SageMaker la plataforma de formación. Para utilizar las funciones de las bibliotecas de formación distribuidas, le recomendamos que utilice el SDK de SageMaker Python. También puedes configurarla manualmente en la sintaxis de solicitud JSON si utilizas SageMaker APIs SDK for Python (Boto3) o. AWS Command Line Interface En toda la documentación, las instrucciones y los ejemplos se centran en cómo utilizar las bibliotecas de formación distribuidas con el SDK de SageMaker Python.

importante

La biblioteca de SageMaker modelos de paralelismo es compatible con todas las funciones principales y admite el paralelismo de canalización para PyTorch. TensorFlow

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Marcos admitidos y Regiones de AWS

Paralelismo de datos partidos