Estruturas compatíveis e Regiões da AWS - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Estruturas compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS

nota

Para verificar as atualizações e notas de lançamento mais recentes da biblioteca, consulteNotas de lançamento da biblioteca de SageMaker paralelismo de modelos.

Estruturas compatíveis

O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres SMP Docker e um canal SMP Conda. Quando você usa as classes do estimador de estrutura no SDK do SageMaker Python e especifica a configuração de distribuição para usar o SMP v2, seleciona SageMaker automaticamente os contêineres do SMP Docker. Para usar o SMP v2, recomendamos que você sempre mantenha o SDK do SageMaker Python atualizado em seu ambiente de desenvolvimento.

PyTorch versões que a biblioteca de paralelismo de SageMaker modelos suporta

PyTorch versão SageMaker versão da biblioteca de paralelismo do modelo URI da imagem SMP Docker
v2.3.1 smdistributed-modelparallel==v2.4.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
v2.2.0 smdistributed-modelparallel==v2.3.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
smdistributed-modelparallel==v2.2.0 Não disponível. Use a imagem do SMP v2.3.0, que é compatível com versões anteriores.
v2.1.2 smdistributed-modelparallel==v2.1.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
v2.0.1 smdistributed-modelparallel==v2.0.0 658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Canal SMP Conda

O bucket S3 a seguir é um canal público da Conda hospedado pela equipe de serviço do SMP. Se você quiser instalar a biblioteca SMP v2 em um ambiente como SageMaker HyperPod clusters, use esse canal Conda para instalar adequadamente a biblioteca SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obter mais informações sobre os canais do Conda em geral, consulte Canais na documentação do Conda.

nota

Para encontrar versões anteriores da biblioteca SMP v1.x e DLCs pré-empacotados, consulte Estruturas compatíveis a documentação do SMP v1.

Use o SMP v2 com bibliotecas de código aberto

A biblioteca SMP v2 funciona com outras bibliotecas de código aberto PyTorch baseadas, como PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, porque o SMP v2 é compatível com as APIs do FSDP. PyTorch Se você tiver mais dúvidas sobre como usar a biblioteca SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em. sm-model-parallel-feedback@amazon.com

Regiões da AWS

O SMP v2 está disponível a seguir. Regiões da AWS Se você quiser usar os URIs de imagem do SMP Docker ou o canal SMP Conda, verifique a lista a seguir, escolha a que Região da AWS corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.

  • ap-northeast-1

  • ap-northeast-2

  • ap-northeast-3

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ca-central-1

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-west-3

  • sa-east-1

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

Tipos de instâncias compatíveis

O SMP v2 requer um dos seguintes tipos de instância de ML.

Tipo de instância
ml.p4d.24xlarge
ml.p4de.24xlarge
ml.p5.48xlarge
dica

A partir do SMP v2.2.0, o suporte para PyTorch v2.2.0 e versões posteriores está disponível. Treinamento misto de precisão com FP8 em instâncias P5 usando o Transformer Engine

Para especificações dos tipos de instância de aprendizado de SageMaker máquina em geral, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker Pricing.

Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitando um aumento de cota no Guia do Usuário de AWS Quotas de Serviço.

ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.