Executar trabalhos de treinamento em um cluster heterogêneo

Usando o recurso de cluster heterogêneo do SageMaker Training, você pode executar um trabalho de treinamento com vários tipos de instâncias de ML para uma melhor escalabilidade e utilização de recursos para diferentes tarefas e propósitos de treinamento de ML. Por exemplo, se o seu trabalho de treinamento em um cluster com instâncias de GPU apresentar problemas de baixa utilização da GPU e de gargalo de CPU devido a tarefas intensivas de CPU, o uso de um cluster heterogêneo pode ajudar a aliviar tarefas intensivas de CPU adicionando grupos de instâncias de CPU mais econômicos, resolvendo esses problemas de gargalo e alcançando uma melhor utilização da GPU.

nota

Esse recurso está disponível no SageMaker Python SDK v2.98.0 e versões posteriores.

nota

Esse recurso está disponível por meio das classes de estimadores de TensorFlowestrutura PyTorche SageMaker IA. As estruturas suportadas são PyTorch v1.10 ou posterior e TensorFlow v2.6 ou posterior.

Veja também o blog Melhore a relação preço/desempenho de seu treinamento de modelos usando clusters heterogêneos de SageMaker IA da Amazon.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

SageMaker Variáveis de ambiente de IA e os caminhos padrão para locais de armazenamento de treinamento

Configure um trabalho de treinamento com um cluster heterogêneo na Amazon AI SageMaker