Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Marcos y tipos Regiones de AWS de instancias compatibles
Antes de usar la biblioteca de paralelismo de datos SageMaker distribuidos (SMDDP), compruebe cuáles son los marcos de aprendizaje automático y los tipos de instancias compatibles y si hay suficientes cuotas en su cuenta y. AWS Región de AWS
Marcos admitidos
En las tablas siguientes se muestran los marcos de aprendizaje profundo y sus versiones compatibles con el SageMaker paralelismo de SageMaker datos distribuidos. El paralelismo de datos SageMaker distribuidos está disponible en AWS Deep Learning Containers (DLC) o se puede descargar como un archivo binario.
nota
Para consultar las últimas actualizaciones y notas de la versión de la biblioteca, consulta también las notas de la versión de SageMaker Data Parallel
PyTorch
PyTorch versiones | SageMaker versiones de paralelismo de datos distribuidos | URI de imagen integrada de smdistributed-dataparallel |
URL del archivo binario** |
---|---|---|---|
v2.0.1 | smdistributed-dataparallel==v2.0.1 |
763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-10-23/smdistributed_dataparallel-2.0.1-cp310-cp310-linux_x86_64.whl |
v2.0.0 | smdistributed-dataparallel==v1.8.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl |
v1.13.1 | smdistributed-dataparallel==v1.7.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl |
v1.12.1 | smdistributed-dataparallel==v1.6.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl |
v1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
v1.11.0 | smdistributed-dataparallel==v1.4.1 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl |
nota
El paralelismo de datos SageMaker distribuidos v1.4.0 y versiones posteriores funciona como un backend del paralelismo de datos distribuido ( PyTorchtorch.distributed) (torch.parallel). DistributedDataParallel). De acuerdo con el cambio, las siguientes API smdistributed
-
smdistributed.dataparallel.torch.distributed
está en desuso. Utilice el paquete torch.distributeden su lugar. -
smdistributed.dataparallel.torch.parallel.DistributedDataParallel
está en desuso. Usa torch.nn.parallel. DistributedDataParallelAPI en su lugar.
Si necesita usar las versiones anteriores de la biblioteca (v1.3.0 o anteriores), consulte la documentación archivada sobre paralelismo de datos SageMaker distribuidos en la documentación
** Las direcciones URL de los archivos binarios sirven para instalar el paralelismo de datos distribuidos en contenedores personalizados. SageMaker Para obtener más información, consulte Cree su propio contenedor Docker con la biblioteca paralela de datos SageMaker distribuidos.
PyTorch Lightning
PyTorch Versiones Lightning | PyTorch versiones | SageMaker versiones de paralelismo de datos distribuidos | URI de imagen integrada de smdistributed-dataparallel |
URL del archivo binario** |
---|---|---|---|---|
1.7.2 1.7.0 1.6.4 1.6.3 1.5.10 |
1.12.0 | smdistributed-dataparallel==v1.5.0 |
763104351884.dkr.ecr.<region> .amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker |
https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl |
nota
PyTorch Lightning y sus bibliotecas de utilidades, como Lightning Bolts, no vienen preinstaladas en los DLC. PyTorch Al crear un SageMaker PyTorch estimador y enviar una solicitud de trabajo de formación en el paso 2, es necesario proporcionarlo requirements.txt
para instalarlo pytorch-lightning
y guardarlo lightning-bolts
en el contenedor de formación. SageMaker PyTorch
# requirements.txt pytorch-lightning lightning-bolts
Para obtener más información sobre cómo especificar el directorio de origen para colocar el requirements.txt
archivo junto con el guion de formación y el envío de un trabajo, consulte Uso de bibliotecas de terceros
Hugging Face Transformers
Los AWS Deep Learning Containers de Hugging Face utilizan SageMaker los contenedores PyTorch de TensorFlow formación como imágenes base. Para buscar las versiones y versiones PyTorch combinadas de la biblioteca Hugging Face Transformers, consulta las versiones más recientes de Hugging Face Containers TensorFlow y las versiones anteriores de Hugging
TensorFlow (no disponible)
importante
La biblioteca SMDDP dejó de ofrecer soporte a los DLC TensorFlow y dejó de estar disponible en ellos a partir de la versión 2.11.0. TensorFlow En la siguiente tabla se enumeran los DLC anteriores con la biblioteca SMDDP instalada. TensorFlow
TensorFlow versiones | SageMaker versiones de paralelismo de datos distribuidos |
---|---|
2.9.1, 2.10.1, 2.11.0 |
smdistributed-dataparallel==v1.4.1
|
2.8.3 |
smdistributed-dataparallel==v1.3.0
|
Regiones de AWS
El paralelismo de datos SageMaker distribuidos está disponible en todos los lugares para los que SageMaker están Regiones de AWS en servicio los AWS Deep Learning Containers
Tipos de instancias admitidas
El paralelismo de datos SageMaker distribuidos requiere uno de los siguientes tipos de instancias.
Tipo de instancia |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
importante
La biblioteca SMDDP dejó de ofrecer soporte para las instancias P3. La biblioteca SMDDP admite tipos de instancias equipados con las GPU NVIDIA A100 y EFA.
Para ver las especificaciones de los tipos de instancias, consulte la sección Computación acelerada en la página de tipos de instancias de Amazon EC2
Si te aparece un mensaje de error similar al siguiente, sigue las instrucciones que se indican en Solicitar un aumento de la cuota de servicio para SageMaker los recursos.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.