Marcos y tipos Regiones de AWS de instancias compatibles - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Marcos y tipos Regiones de AWS de instancias compatibles

Antes de usar la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), compruebe cuáles son los marcos de aprendizaje automático y los tipos de instancias compatibles y si hay suficientes cuotas en su cuenta y. AWS Región de AWS

Marcos admitidos

En las tablas siguientes se muestran los marcos de aprendizaje profundo y sus versiones compatibles con SMDDP. SageMaker La biblioteca SMDDP está disponible en contenedores SageMaker Framework, integrada en los contenedores Docker distribuidos por la biblioteca de paralelismo de SageMaker modelos (SMP) v2 o se puede descargar como un archivo binario.

nota

Para consultar las últimas actualizaciones y notas de la versión de la biblioteca SMDDP, consulte la. SageMaker notas de publicación de la biblioteca de paralelismo de datos

PyTorch

PyTorch versión versión de la biblioteca SMDDP SageMaker Imágenes de Framework Container preinstaladas con SMDDP Imágenes de Docker SMP preinstaladas con SMDDP URL del archivo binario**
v2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Actualmente no está disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
v2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca SMDDP en contenedores personalizados. Para obtener más información, consulte Cree su propio contenedor Docker con la biblioteca paralela de datos SageMaker distribuidos.

nota

La biblioteca SMDDP está disponible Regiones de AWS donde están en servicio los contenedores SageMaker Framework y las imágenes de Docker SMP.

nota

La biblioteca SMDDP, versión 1.4.0 y versiones posteriores, funciona como un servidor de paralelismo de datos distribuidos (torch.distributed) (torch.parallel). PyTorch DistributedDataParalelo). De acuerdo con el cambio, las siguientes API smdistributed para el paquete PyTorch distribuido han quedado obsoletas.

Si necesita usar las versiones anteriores de la biblioteca (v1.3.0 o anteriores), consulte la documentación archivada sobre paralelismo de datos SageMaker distribuidos en la documentación del SDK de Python. SageMaker

PyTorch Lightning

La biblioteca SMDDP está disponible para PyTorch Lightning en los siguientes contenedores SageMaker Framework PyTorch y en los contenedores SMP Docker.

PyTorch Lightning v2

PyTorch Versión Lightning PyTorch versión versión de la biblioteca SMDDP SageMaker Imágenes de Framework Container preinstaladas con SMDDP Imágenes de Docker SMP preinstaladas con SMDDP URL del archivo binario**
2.2.5 2.3.0 smdistributed-dataparallel==v2.3.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker Actualmente no está disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.2.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker No disponible https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning v1

PyTorch Versión Lightning PyTorch versión versión de la biblioteca SMDDP SageMaker Imágenes de Framework Container preinstaladas con SMDDP URL del archivo binario**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Las direcciones URL de los archivos binarios sirven para instalar la biblioteca SMDDP en contenedores personalizados. Para obtener más información, consulte Cree su propio contenedor Docker con la biblioteca paralela de datos SageMaker distribuidos.

nota

PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en los DLC. PyTorch Al crear un SageMaker PyTorch estimador y enviar una solicitud de trabajo de formación en el paso 2, es necesario proporcionarlo requirements.txt para instalarlo pytorch-lightning y guardarlo lightning-bolts en el contenedor de formación. SageMaker PyTorch

# requirements.txt pytorch-lightning lightning-bolts

Para obtener más información sobre cómo especificar el directorio de origen para colocar el requirements.txt archivo junto con el guion de formación y el envío de un trabajo, consulte Uso de bibliotecas de terceros en la documentación del SDK de Amazon SageMaker Python.

Hugging Face Transformers

Los AWS Deep Learning Containers de Hugging Face utilizan SageMaker los contenedores PyTorch de TensorFlow formación como imágenes base. Para buscar las versiones y versiones PyTorch combinadas de la biblioteca Hugging Face Transformers, consulta las versiones más recientes de Hugging Face Containers TensorFlow y las versiones anteriores de Hugging Face Container.

TensorFlow (no disponible)

importante

La biblioteca SMDDP dejó de ofrecer soporte a los DLC TensorFlow y dejó de estar disponible en ellos a partir de la versión 2.11.0. TensorFlow En la siguiente tabla se enumeran los DLC anteriores con la biblioteca SMDDP instalada. TensorFlow

TensorFlow versión versión de la biblioteca SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regiones de AWS

La biblioteca SMDDP está disponible en todos los Regiones de AWS lugares en los que están en servicio los AWS Deep Learning Containers SageMaker y las imágenes SMP Docker.

Tipos de instancias admitidas

La biblioteca SMDDP requiere uno de los siguientes tipos de instancias.

Tipo de instancia
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
sugerencia

Para ejecutar correctamente la formación distribuida en los tipos de instancias habilitadas para EFA, debe habilitar el tráfico entre las instancias configurando el grupo de seguridad de su VPC para permitir todo el tráfico entrante y saliente hacia y desde el propio grupo de seguridad. Para obtener información sobre cómo configurar las reglas de los grupos de seguridad, consulte el paso 1: Preparar un grupo de seguridad habilitado para EFA en la Guía del usuario de Amazon EC2.

importante

* La biblioteca SMDDP ha dejado de ofrecer soporte para optimizar sus operaciones de comunicación colectiva en las instancias P3. Si bien puede seguir utilizando el conjunto optimizado AllReduce para SMDDP en ml.p3dn.24xlarge las instancias, no habrá más soporte de desarrollo para mejorar el rendimiento en este tipo de instancias. Ten en cuenta que el AllGather colectivo optimizado para SMDDP solo está disponible para las instancias P4.

Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2. Para obtener información sobre los precios de las instancias, consulta Amazon SageMaker Pricing.

Si te aparece un mensaje de error similar al siguiente, sigue las instrucciones que se indican en Solicitar un aumento de la cuota de servicio para SageMaker los recursos.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.