As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Estruturas compatíveis e Regiões da AWS
Antes de usar a biblioteca de paralelismo de SageMaker modelos v2 (SMP v2), verifique as estruturas e os tipos de instância compatíveis e determine se há cotas suficientes em sua conta e. AWS Região da AWS
nota
Para verificar as atualizações e notas de lançamento mais recentes da biblioteca, consulteNotas de lançamento da biblioteca de SageMaker paralelismo de modelos.
Estruturas compatíveis
O SMP v2 é compatível com as seguintes estruturas de aprendizado profundo e está disponível por meio de contêineres SMP Docker e um canal SMP Conda. Quando você usa as classes do estimador de estrutura no SDK do SageMaker Python e especifica a configuração de distribuição para usar o SMP v2, seleciona SageMaker automaticamente os contêineres do SMP Docker. Para usar o SMP v2, recomendamos que você sempre mantenha o SDK do SageMaker Python atualizado em seu ambiente de desenvolvimento.
PyTorch versões que a biblioteca de paralelismo de SageMaker modelos suporta
PyTorch versão | SageMaker versão da biblioteca de paralelismo do modelo | URI da imagem SMP Docker |
---|---|---|
v2.3.1 | smdistributed-modelparallel==v2.4.0 |
658645717510.dkr.ecr. |
v2.2.0 | smdistributed-modelparallel==v2.3.0 |
658645717510.dkr.ecr. |
smdistributed-modelparallel==v2.2.0 |
Não disponível. Use a imagem do SMP v2.3.0, que é compatível com versões anteriores. | |
v2.1.2 | smdistributed-modelparallel==v2.1.0 |
658645717510.dkr.ecr. |
v2.0.1 | smdistributed-modelparallel==v2.0.0 |
658645717510.dkr.ecr. |
Canal SMP Conda
O bucket S3 a seguir é um canal público da Conda hospedado pela equipe de serviço do SMP. Se você quiser instalar a biblioteca SMP v2 em um ambiente como SageMaker HyperPod clusters, use esse canal Conda para instalar adequadamente a biblioteca SMP.
https://sagemaker-distributed-model-parallel.s3.
us-west-2
.amazonaws.com/smp-v2/
Para obter mais informações sobre os canais do Conda em geral, consulte Canais
nota
Para encontrar versões anteriores da biblioteca SMP v1.x e DLCs pré-empacotados, consulte Estruturas compatíveis a documentação do SMP v1.
Use o SMP v2 com bibliotecas de código aberto
A biblioteca SMP v2 funciona com outras bibliotecas de código aberto PyTorch baseadas, como PyTorch Lightning, Hugging Face Transformers e Hugging Face Accelerate, porque o SMP v2 é compatível com as APIs do FSDP. PyTorch Se você tiver mais dúvidas sobre como usar a biblioteca SMP com outras bibliotecas de terceiros, entre em contato com a equipe de serviço do SMP em. sm-model-parallel-feedback@amazon.com
Regiões da AWS
O SMP v2 está disponível a seguir. Regiões da AWS Se você quiser usar os URIs de imagem do SMP Docker ou o canal SMP Conda, verifique a lista a seguir, escolha a que Região da AWS corresponde à sua e atualize o URI da imagem ou o URL do canal adequadamente.
-
ap-northeast-1
-
ap-northeast-2
-
ap-northeast-3
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ca-central-1
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
eu-west-3
-
sa-east-1
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
Tipos de instâncias compatíveis
O SMP v2 requer um dos seguintes tipos de instância de ML.
Tipo de instância |
---|
ml.p4d.24xlarge |
ml.p4de.24xlarge |
ml.p5.48xlarge |
dica
A partir do SMP v2.2.0, o suporte para PyTorch v2.2.0 e versões posteriores está disponível. Treinamento misto de precisão com FP8 em instâncias P5 usando o Transformer Engine
Para especificações dos tipos de instância de aprendizado de SageMaker máquina em geral, consulte a seção Computação acelerada na página Tipos de instância do Amazon EC2
Se você encontrou uma mensagem de erro semelhante à seguinte, siga as instruções em Solicitando um aumento de cota no Guia do Usuário de AWS Quotas de Serviço.
ResourceLimitExceeded: An error occurred (ResourceLimitExceeded) when calling the CreateTrainingJob operation: The account-level service limit 'ml.p3dn.24xlarge for training job usage' is 0 Instances, with current utilization of 0 Instances and a request delta of 1 Instances. Please contact AWS support to request an increase for this limit.