Estruturas e tipos Regiões da AWS de instâncias compatíveis - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estruturas e tipos Regiões da AWS de instâncias compatíveis

Antes de usar a biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP), verifique quais são as estruturas de ML e os tipos de instância compatíveis e se há cotas suficientes em sua conta e. AWS Região da AWS

Estruturas compatíveis

As tabelas a seguir mostram as estruturas de aprendizado profundo e suas versões, além do suporte ao SMDDP. SageMaker A biblioteca SMDDP está disponível em SageMaker Framework Containers, integrada em contêineres Docker distribuídos pela biblioteca de paralelismo de SageMaker modelos (SMP) v2 ou pode ser baixada como um arquivo binário.

nota

Para verificar as atualizações e notas de lançamento mais recentes da biblioteca SMDDP, consulte o. SageMaker notas de lançamento da biblioteca de paralelismo de dados

PyTorch

PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do Framework Container pré-instaladas com SMDDP Imagens SMP Docker pré-instaladas com SMDDP URL do arquivo binário**
v2.2.0 smdistributed-dataparallel==v2.2.0 Atualmente não disponível 658645717510.dkr.ecr. <region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
v2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr. <region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
v2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
v2.0.0 smdistributed-dataparallel==v1.8.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.0/cu118/2023-03-20/smdistributed_dataparallel-1.8.0-cp310-cp310-linux_x86_64.whl
v1.13.1 smdistributed-dataparallel==v1.7.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.13.1/cu117/2023-01-09/smdistributed_dataparallel-1.7.0-cp39-cp39-linux_x86_64.whl
v1.12.1 smdistributed-dataparallel==v1.6.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.1-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.1/cu113/2022-12-05/smdistributed_dataparallel-1.6.0-cp38-cp38-linux_x86_64.whl
v1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl
v1.11.0 smdistributed-dataparallel==v1.4.1 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.11.0-gpu-py38-cu113-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.11.0/cu113/2022-04-14/smdistributed_dataparallel-1.4.1-cp38-cp38-linux_x86_64.whl

** Os URLs dos arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados SageMaker distribuídos.

nota

A biblioteca SMDDP está disponível Regiões da AWS onde os SageMaker Framework Containers e as imagens SMP Docker estão em serviço.

nota

A biblioteca SMDDP v1.4.0 e posterior funciona como um back-end do paralelismo de dados distribuído ( PyTorch torch.distributed) (torch.parallel). DistributedDataParallel). De acordo com a alteração, as seguintes APIs smdistributed para o pacote PyTorch distribuído foram descontinuadas.

Se você precisar usar as versões anteriores da biblioteca (v1.3.0 ou anterior), consulte a documentação arquivada de paralelismo de dados SageMaker distribuídos na documentação do SDK do Python. SageMaker

PyTorch Relâmpago

A biblioteca SMDDP está disponível para o PyTorch Lightning nos seguintes contêineres SageMaker Framework PyTorch e SMP Docker.

PyTorch Lightning versão 2

PyTorch Versão Lightning PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do Framework Container pré-instaladas com SMDDP Imagens SMP Docker pré-instaladas com SMDDP URL do arquivo binário**
2.2.0 2.2.0 smdistributed-dataparallel==v2.2.0 Atualmente não disponível 658645717510.dkr.ecr. <region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
2.1.2 2.1.0 smdistributed-dataparallel==v2.1.0 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker 658645717510.dkr.ecr. <region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
2.1.0 2.0.1 smdistributed-dataparallel==v2.0.1 763104351884.dkr.ecr. <region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker Indisponível https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

PyTorch Lightning versão 1

PyTorch Versão Lightning PyTorch versão Versão da biblioteca SMDDP SageMaker Imagens do Framework Container pré-instaladas com SMDDP URL do arquivo binário**

1.7.2

1.7.0

1.6.4

1.6.3

1.5.10

1.12.0 smdistributed-dataparallel==v1.5.0 763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker https://smdataparallel.s3.amazonaws.com/binary/pytorch/1.12.0/cu113/2022-07-01/smdistributed_dataparallel-1.5.0-cp38-cp38-linux_x86_64.whl

** Os URLs dos arquivos binários são para instalar a biblioteca SMDDP em contêineres personalizados. Para ter mais informações, consulte Crie seu próprio contêiner Docker com a biblioteca paralela de dados SageMaker distribuídos.

nota

PyTorch O Lightning e suas bibliotecas de utilitários, como o Lightning Bolts, não estão pré-instalados nos DLCs. PyTorch Ao criar um SageMaker PyTorch estimador e enviar uma solicitação de trabalho de treinamento na Etapa 2, você precisa fornecer requirements.txt para instalação pytorch-lightning e lightning-bolts no contêiner de SageMaker PyTorch treinamento.

# requirements.txt pytorch-lightning lightning-bolts

Para obter mais informações sobre como especificar o diretório de origem para colocar o requirements.txt arquivo junto com seu script de treinamento e o envio de um trabalho, consulte Uso de bibliotecas de terceiros na documentação do SDK do Amazon SageMaker Python.

Transformadores Hugging Face

Os AWS Deep Learning Containers for Hugging Face usam os SageMaker Training Containers para PyTorch e TensorFlow como suas imagens base. Para consultar as versões e as versões emparelhadas da biblioteca Hugging Face Transformers, consulte as versões mais recentes do Hugging Face Containers PyTorch e TensorFlow as versões anteriores do Hugging Face Container.

TensorFlow (obsoleto)

Importante

A biblioteca SMDDP interrompeu o suporte TensorFlow e não está mais disponível em DLCs posteriores à versão 2.11.0. TensorFlow A tabela a seguir lista os DLCs anteriores TensorFlow com a biblioteca SMDDP instalada.

TensorFlow versão Versão da biblioteca SMDDP
2.9.1, 2.10.1, 2.11.0 smdistributed-dataparallel==v1.4.1
2.8.3 smdistributed-dataparallel==v1.3.0

Regiões da AWS

A biblioteca SMDDP está disponível em todos os locais em Regiões da AWS que os AWS Deep Learning Containers SageMaker e as imagens do SMP Docker estão em serviço.

Tipos de instâncias compatíveis

A biblioteca SMDDP exige um dos seguintes tipos de instância.

Tipo de instância
ml.p3dn.24xlarge*
ml.p4d.24xlarge
ml.p4de.24xlarge
dica

Para executar adequadamente o treinamento distribuído nos tipos de instância habilitados para EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança da sua VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: Preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.

Importante

* A biblioteca SMDDP interrompeu o suporte para otimizar suas operações de comunicação coletiva em instâncias P3. Embora você ainda possa utilizar o AllReduce coletivo otimizado SMDDP em ml.p3dn.24xlarge instâncias, não haverá mais suporte de desenvolvimento para aprimorar o desempenho nesse tipo de instância. Observe que o AllGather coletivo otimizado para SMDDP só está disponível para instâncias P4.

Para especificações dos tipos de instância, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker Pricing.

Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento da cota de serviço para SageMaker recursos.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.