Estruturas compatíveis e Regiões da AWS - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estruturas compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte Notas de lançamento da biblioteca de SageMaker paralelismo de modelos.

Estruturas compatíveis

O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres do Docker do SMP e de um canal SMP Conda: Quando você usa as classes do estimador de estrutura no SDK do SageMaker Python e especifica a configuração de distribuição para usar o SMP v2, o SageMaker AI seleciona automaticamente os contêineres do SMP Docker. Para usar o SMP v2, recomendamos que você sempre mantenha o SDK do SageMaker Python atualizado em seu ambiente de desenvolvimento.

PyTorch versões que a biblioteca de paralelismo de SageMaker modelos suporta

PyTorch versão SageMaker versão da biblioteca de paralelismo do modelo URI da imagem do Docker do SMP URI da imagem SMP Enroot
v2.4.1 smdistributed-modelparallel==v2.7.0 658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121 https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh
smdistributed-modelparallel==v2.6.1 N/D
smdistributed-modelparallel==v2.6.0 N/D
v2.3.1 smdistributed-modelparallel==v2.5.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121 N/D
smdistributed-modelparallel==v2.4.0
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121 N/D
smdistributed-modelparallel==v2.2.0
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121 N/D
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121 N/D

Canal SMP Conda

O seguinte bucket do Amazon S3 é um canal público da Conda hospedado pela equipe de serviço do SMP. Se você quiser instalar a biblioteca SMP v2 em um ambiente como SageMaker HyperPod clusters, use esse canal Conda para instalar adequadamente a biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obter mais informações sobre os canais Conda em geral, consulte Canais, na documentação Conda.

nota

Para encontrar versões anteriores da biblioteca SMP v1.x e pré-empacotadas DLCs, consulte Estruturas compatíveis a documentação do SMP v1.

Usar o SMP v2 com bibliotecas de código aberto

A biblioteca SMP v2 funciona com outras PyTorch bibliotecas de código aberto, como PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, porque o SMP v2 é compatível com o FSDP. PyTorch APIs Se tiver mais perguntas sobre como usar a biblioteca de SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em sm-model-parallel-feedback@amazon.com.

Regiões da AWS

O SMP v2 está disponível a seguir. Regiões da AWS Se você quiser usar a imagem SMP Docker URIs ou o canal SMP Conda, verifique a lista a seguir, escolha a que Região da AWS corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipos de instâncias compatíveis

O SMP v2 exige um dos seguintes tipos de instância de ML:

Tipo de instância
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
ml.p5e.48xlarge
dica

A partir do SMP v2.2.0, o suporte para PyTorch v2.2.0 e versões posteriores está disponível. Treinamento misto de precisão com FP8 instâncias P5 usando o Transformer Engine

Para especificações dos tipos de instância de aprendizado de SageMaker máquina em geral, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker AI Pricing.

Se aparecer uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento de cota, no Guia do usuário do Service Quotas da AWS :

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.