Principais características da biblioteca de SageMaker paralelismo de modelos

A biblioteca de paralelismo de modelos da Amazon SageMaker AI oferece estratégias de distribuição e técnicas de economia de memória, como paralelismo de dados fragmentados, paralelismo de tensores, particionamento de modelos por camadas para agendamento de pipeline e pontos de verificação. As estratégias e técnicas de paralelismo de modelos ajudam a distribuir modelos grandes em vários dispositivos, otimizando a velocidade de treinamento e o consumo de memória. A biblioteca também fornece funções auxiliares, gerenciadores de contexto e funções de wrapper do Python para adaptar seu script de treinamento para particionamento automático ou manual do seu modelo.

Ao implementar o paralelismo de modelos em seu trabalho de treinamento, você mantém o mesmo fluxo de trabalho em duas etapas mostrado na seção Executar um trabalho de SageMaker treinamento distribuído com paralelismo de modelos. Para adaptar seu script de treinamento, você adicionará zero ou poucas linhas de código adicionais ao seu script de treinamento. Para iniciar um trabalho de treinamento do script de treinamento adaptado, você precisará definir os parâmetros de configuração da distribuição para ativar os atributos de economia de memória ou para passar valores para o grau de paralelismo.

Para começar com exemplos, consulte os seguintes cadernos Jupyter que demonstram como usar a biblioteca de paralelismo de SageMaker modelos.

Para se aprofundar nos principais atributos da biblioteca, consulte os tópicos a seguir.

nota

As bibliotecas de treinamento SageMaker distribuídas estão disponíveis por meio dos contêineres de aprendizado AWS profundo do Hugging Face e TensorFlow na plataforma de treinamento. PyTorch SageMaker Para utilizar os recursos das bibliotecas de treinamento distribuídas, recomendamos que você use o SDK do SageMaker Python. Você também pode configurar manualmente a sintaxe de solicitação JSON se usar SageMaker APIs por meio do SDK for Python (Boto3) ou. AWS Command Line Interface Em toda a documentação, as instruções e os exemplos se concentram em como usar as bibliotecas de treinamento distribuídas com o SDK do SageMaker Python.

Importante

A biblioteca de paralelismo de SageMaker modelos oferece suporte a todos os recursos principais e oferece suporte ao paralelismo de pipeline para PyTorch. TensorFlow

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Frameworks compatíveis e Regiões da AWS

Paralelismo de dados compartilhados