Marcos y Regiones de AWS compatibles

Modo de enfoque

Marcos y Regiones de AWS compatibles - Amazon SageMaker AI

Marcos admitidos Regiones de AWS Tipos de instancias admitidas

Antes de usar la biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), compruebe los marcos y tipos de instancias compatibles y determine si hay suficientes cuotas en su cuenta y. AWS Región de AWS

nota

Para ver las últimas actualizaciones y notas de la versión de la biblioteca, consulte Notas de publicación de la biblioteca de paralelismo de SageMaker modelos.

Marcos admitidos

SMP v2 es compatible con los siguientes marcos de aprendizaje profundo y está disponible a través de contenedores de Docker de SMP y un canal Conda de SMP. Cuando utilizas las clases estimadoras del framework del SDK de SageMaker Python y especificas la configuración de distribución para usar SMP v2, la SageMaker IA recoge automáticamente los contenedores Docker de SMP. Para usar SMP v2, te recomendamos que mantengas siempre actualizado el SDK de SageMaker Python en tu entorno de desarrollo.

PyTorch versiones compatibles con la biblioteca de paralelismo de SageMaker modelos

PyTorch versión	SageMaker versión de la biblioteca de paralelismo de modelos	URI de imagen de Docker de SMP	URI de imagen SMP Enroot
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/A
	`smdistributed-modelparallel==v2.6.0`		N/A
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/A
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/A
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/A
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/A
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/A
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/A

Canal Conda de SMP

El siguiente bucket de Amazon S3 es un canal público de Conda hospedado por el equipo de servicio de SMP. Si desea instalar la biblioteca SMP v2 en un entorno como los SageMaker HyperPod clústeres, utilice este canal Conda para instalar correctamente la biblioteca SMP.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obtener más información sobre los canales de Conda en general, consulte Canales en la documentación de Conda.

nota

Para encontrar las versiones anteriores de la biblioteca SMP v1.x y las preempaquetadas DLCs, consulte la documentación de SMP v1. Marcos admitidos

Uso de SMP v2 con bibliotecas de código abierto

La biblioteca SMP v2 funciona con otras bibliotecas PyTorch basadas en código abierto, como PyTorch Lightning, Hugging Face Transformers y Hugging Face Accelerate, ya que SMP v2 es compatible con el FSDP. PyTorch APIs Si tiene más preguntas sobre el uso de la biblioteca de SMP con otras bibliotecas de terceros, póngase en contacto con el equipo de servicio de SMP en sm-model-parallel-feedback@amazon.com.

Regiones de AWS

SMP v2 está disponible en las siguientes versiones. Regiones de AWS Si quieres usar la imagen SMP de Docker URIs o el canal SMP Conda, consulta la siguiente lista, elige la que Región de AWS coincida con la tuya y actualiza el URI de la imagen o la URL del canal en consecuencia.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Tipos de instancias admitidas

SMP v2 requiere uno de los siguientes tipos de instancias de ML.

Tipo de instancia
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

sugerencia

Está disponible a partir de la versión 2.2.0 de SMP, compatible PyTorch con la versión 2.2.0 y versiones posteriores. Entrenamiento de precisión mixto con FP8 instancias P5 que utilizan Transformer Engine

Para ver las especificaciones de los tipos de instancias de aprendizaje SageMaker automático en general, consulte la sección Computación acelerada en la página de tipos de EC2 instancias de Amazon. Para obtener información sobre los precios de las instancias, consulta Amazon SageMaker AI Pricing.

Si encuentra un mensaje de error similar al siguiente, siga las instrucciones de Solicitud de aumento de cuota en la Guía del usuario de AWS Service Quotas.


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Conceptos de paralelismo de modelos

Utilice la SMP v2

Tema siguiente:

Utilice la SMP v2

Tema anterior:

Conceptos de paralelismo de modelos

¿Necesita ayuda?

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies

Marcos y Regiones de AWS compatibles

nota

Marcos admitidos

nota

Uso de SMP v2 con bibliotecas de código abierto

Regiones de AWS

Tipos de instancias admitidas

sugerencia

Tema siguiente:

Tema anterior:

¿Necesita ayuda?

En esta página

Related resources

¿Le ha servido de ayuda esta página?

Related resources