As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estruturas compatíveis e Regiões da AWS
Antes de usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS
nota
Para verificar as atualizações e notas da versão mais recentes da biblioteca, consulte Notas de lançamento da biblioteca de SageMaker paralelismo de modelos.
Estruturas compatíveis
O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres do Docker do SMP e de um canal SMP Conda: Quando você usa as classes do estimador de estrutura no SDK do SageMaker Python e especifica a configuração de distribuição para usar o SMP v2, o SageMaker AI seleciona automaticamente os contêineres do SMP Docker. Para usar o SMP v2, recomendamos que você sempre mantenha o SDK do SageMaker Python atualizado em seu ambiente de desenvolvimento.
PyTorch versões que a biblioteca de paralelismo de SageMaker modelos suporta
PyTorch versão | SageMaker versão da biblioteca de paralelismo do modelo | URI da imagem do Docker do SMP | URI da imagem SMP Enroot |
---|---|---|---|
v2.4.1 | smdistributed-modelparallel==v2.7.0 |
658645717510.dkr.ecr. |
https://sagemaker-distributed-model-parallel.s3. |
smdistributed-modelparallel==v2.6.1 |
N/D | ||
smdistributed-modelparallel==v2.6.0 |
N/D | ||
v2.3.1 | smdistributed-modelparallel==v2.5.0 |
658645717510.dkr.ecr. |
N/D |
smdistributed-modelparallel==v2.4.0 |
|||
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
N/D |
smdistributed-modelparallel==v2.2.0 |
|||
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
N/D |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
N/D |
Canal SMP Conda
O seguinte bucket do Amazon S3 é um canal público da Conda hospedado pela equipe de serviço do SMP. Se você quiser instalar a biblioteca SMP v2 em um ambiente como SageMaker HyperPod clusters, use esse canal Conda para instalar adequadamente a biblioteca SMP.
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Para obter mais informações sobre os canais Conda em geral, consulte Canais
nota
Para encontrar versões anteriores da biblioteca SMP v1.x e pré-empacotadas DLCs, consulte Estruturas compatíveis a documentação do SMP v1.
Usar o SMP v2 com bibliotecas de código aberto
A biblioteca SMP v2 funciona com outras PyTorch bibliotecas de código aberto, como PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, porque o SMP v2 é compatível com o FSDP. PyTorch APIs Se tiver mais perguntas sobre como usar a biblioteca de SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em sm-model-parallel-feedback@amazon.com
.
Regiões da AWS
O SMP v2 está disponível a seguir. Regiões da AWS Se você quiser usar a imagem SMP Docker URIs ou o canal SMP Conda, verifique a lista a seguir, escolha a que Região da AWS corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Tipos de instâncias compatíveis
O SMP v2 exige um dos seguintes tipos de instância de ML:
Tipo de instância |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
ml.p5e.48xlarge |
dica
A partir do SMP v2.2.0, o suporte para PyTorch v2.2.0 e versões posteriores está disponível. Treinamento misto de precisão com FP8 instâncias P5 usando o Transformer Engine
Para especificações dos tipos de instância de aprendizado de SageMaker máquina em geral, consulte a seção Computação acelerada na página Tipos de EC2 instância da Amazon
Se aparecer uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitar um aumento de cota, no Guia do usuário do Service Quotas da AWS :
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.