Lançamento de trabalhos de treinamento distribuídos com SMDDP com o uso do SageMaker Python SDK
Para executar um trabalho de treinamento distribuído com seu script adaptado de Adaptação de seu script de treinamento para usar as operações coletivas do SMDDP, use a estrutura do SageMaker Python SDK ou estimadores genéricos especificando o script de treinamento preparado como um script de ponto de entrada e a configuração de treinamento distribuído.
Esta página explica como usar o SageMaker AI Python SDK
-
Se você quiser adotar rapidamente sua tarefa de treinamento distribuído no SageMaker AI, configure uma classe de estimadores PyTorch
ou TensorFlow do framework do SageMaker AI. O estimador de framework pega seu script de treinamento e combina automaticamente o URI da imagem correta dos PyTorch ou TensorFlow Contêiner de Aprendizado Profundo (DLC) pré-criados , considerando o valor especificado para o parâmetro framework_version. -
Se quiser estender um dos contêineres predefinidos ou criar um contêiner personalizado para criar seu próprio ambiente de ML com o SageMaker AI, use a classe
Estimatorgenérica do SageMaker AI e especifique o URI da imagem do contêiner personalizado do Docker hospedado no Amazon Elastic Container Registry (Amazon ECR).
Seus conjuntos de dados de treinamento devem ser armazenados no Amazon S3 ou no Amazon FSx para Lustre, no Região da AWS onde você está iniciando seu trabalho de treinamento. Se você usa cadernos Jupyter, você deve ter uma instância do caderno SageMaker ou uma aplicação do SageMaker Studio Classic em execução na mesma Região da AWS. Para obter mais informações sobre como armazenar seus dados de treinamento, consulte a documentação de entradas de dados do SageMaker Python SDK
dica
É recomendável que você use o Amazon FSx para Lustre em vez de Amazon S3 para aumentar o desempenho do treinamento. O Amazon FSx tem maior throughput e menor latência do que o Amazon S3.
dica
Para executar adequadamente o treinamento distribuído nos tipos de instância habilitados para o EFA, você deve habilitar o tráfego entre as instâncias configurando o grupo de segurança da VPC para permitir todo o tráfego de entrada e saída de e para o próprio grupo de segurança. Para saber como configurar as regras do grupo de segurança, consulte Etapa 1: preparar um grupo de segurança habilitado para EFA no Guia do usuário do Amazon EC2.
Escolha um dos tópicos a seguir para obter instruções sobre como executar um trabalho de treinamento distribuído do script de treinamento. Depois de iniciar um trabalho de treinamento, você pode monitorar a utilização do sistema e o desempenho do modelo usando o Amazon CloudWatch Amazon SageMaker Debugger.
Enquanto você segue as instruções nos tópicos a seguir para saber mais sobre detalhes técnicos, também recomendamos que você experimente o Exemplos de biblioteca de paralelismo de dados do Amazon SageMaker AI para começar.