Estruturas compatíveis Regiões da AWS Tipos de instâncias compatíveis

Estruturas compatíveis e Regiões da AWS

Antes de usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS

nota

Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte Notas de lançamento da biblioteca de SageMaker paralelismo de modelos.

Estruturas compatíveis

O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres do Docker do SMP e de um canal SMP Conda: Quando você usa as classes do estimador de estrutura no SDK do SageMaker Python e especifica a configuração de distribuição para usar o SMP v2, o SageMaker AI seleciona automaticamente os contêineres do SMP Docker. Para usar o SMP v2, recomendamos que você sempre mantenha o SDK do SageMaker Python atualizado em seu ambiente de desenvolvimento.

PyTorch versões que a biblioteca de paralelismo de SageMaker modelos suporta

PyTorch versão	SageMaker versão da biblioteca de paralelismo do modelo	URI da imagem do Docker do SMP	URI da imagem SMP Enroot
v2.4.1	`smdistributed-modelparallel==v2.7.0`	`658645717510.dkr.ecr.<us-west-2>.amazonaws.com/smdistributed-modelparallel:2.4.1-gpu-py311-cu121`	`https://sagemaker-distributed-model-parallel.s3.<us-west-2>.amazonaws.com/enroot/2.4.1-gpu-py311-cu121.sqsh`
	`smdistributed-modelparallel==v2.6.1`		N/D
	`smdistributed-modelparallel==v2.6.0`		N/D
v2.3.1	`smdistributed-modelparallel==v2.5.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121`	N/D
v2.3.1	`smdistributed-modelparallel==v2.4.0`		N/D
v2.2.0	`smdistributed-modelparallel==v2.3.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121`	N/D
v2.2.0	`smdistributed-modelparallel==v2.2.0`		N/D
v2.1.2	`smdistributed-modelparallel==v2.1.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121`	N/D
v2.0.1	`smdistributed-modelparallel==v2.0.0`	`658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121`	N/D

Canal SMP Conda

O seguinte bucket do Amazon S3 é um canal público da Conda hospedado pela equipe de serviço do SMP. Se você quiser instalar a biblioteca SMP v2 em um ambiente como SageMaker HyperPod clusters, use esse canal Conda para instalar adequadamente a biblioteca SMP.


https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Para obter mais informações sobre os canais Conda em geral, consulte Canais, na documentação Conda.

nota

Para encontrar versões anteriores da biblioteca SMP v1.x e pré-empacotadas DLCs, consulte Estruturas compatíveis a documentação do SMP v1.

Usar o SMP v2 com bibliotecas de código aberto

A biblioteca SMP v2 funciona com outras PyTorch bibliotecas de código aberto, como PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, porque o SMP v2 é compatível com o FSDP. PyTorch APIs Se tiver mais perguntas sobre como usar a biblioteca de SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em sm-model-parallel-feedback@amazon.com.

Regiões da AWS

O SMP v2 está disponível a seguir. Regiões da AWS Se você quiser usar a imagem SMP Docker URIs ou o canal SMP Conda, verifique a lista a seguir, escolha a que Região da AWS corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.

ap-northeast-1
ap-northeast-2
ap-northeast-3
ap-south-1
ap-southeast-1
ap-southeast-2
ca-central-1
eu-central-1
eu-north-1
eu-west-1
eu-west-2
eu-west-3
sa-east-1
us-east-1
us-east-2
us-west-1
us-west-2

Tipos de instâncias compatíveis

O SMP v2 exige um dos seguintes tipos de instância de ML:

Tipo de instância
`ml.p4d.24xlarge`
`ml.p4de.24xlarge`
`ml.p5.48xlarge`
`ml.p5e.48xlarge`

dica

A partir do SMP v2.2.0, o suporte para PyTorch v2.2.0 e versões posteriores está disponível. Treinamento misto de precisão com FP8 instâncias P5 usando o Transformer Engine

Para especificações dos tipos de instância de aprendizado de SageMaker máquina em geral, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon. Para obter informações sobre preços de instâncias, consulte Amazon SageMaker AI Pricing.

Se aparecer uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento de cota, no Guia do usuário do Service Quotas da AWS :


ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling
    the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge
    for training job usage' is 0 Instances, with current utilization of 0 Instances
    and a request delta of 1 Instances.
    Please contact AWS support to request an increase for this limit.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Conceitos de paralelismo de modelos

Use o SMP v2