SageMaker HyperPod - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod

SageMaker HyperPod ajuda você a provisionar clusters resilientes para executar cargas de trabalho de aprendizado de máquina (ML) e desenvolver state-of-the-art modelos como modelos de linguagem grande (LLMs), modelos de difusão e modelos básicos (FMs). Ele acelera o desenvolvimento de FMs ao eliminar o trabalho pesado indiferenciado envolvido na criação e manutenção de clusters de computação em grande escala alimentados por milhares de aceleradores, como AWS Trainium e unidades de processamento gráfico (GPUs) NVIDIA A100 e H100. Quando os aceleradores falham, os clusters de autorrecuperação detectam e substituem automaticamente o hardware defeituoso em tempo real, para que você possa se concentrar na execução de cargas de trabalho de ML por semanas e meses sem interrupções. Além disso, com SageMaker HyperPod, você pode personalizar seu ambiente de computação para melhor atender às suas necessidades e configurá-lo com as bibliotecas de treinamento SageMaker distribuídas da Amazon para obter um desempenho ideal em AWS.

Clusters operacionais

Você pode criar, configurar e manter SageMaker HyperPod clusters graficamente por meio da interface de usuário (UI) do console e programaticamente por meio da interface de AWS linha de comando (CLI) ou. AWS SDK for Python (Boto3) Com o Amazon VPC, você pode proteger a rede de clusters e também aproveitar as vantagens de configurar seu cluster com recursos em sua VPC, como o Amazon FSx for Lustre, que oferece a taxa de transferência mais rápida. Você também pode atribuir funções diferentes do IAM aos grupos de instâncias do cluster e limitar as ações que os recursos e os usuários do cluster podem operar. Para saber mais, consulte Operar SageMaker HyperPod.

Configurando seu ambiente de ML

SageMaker HyperPod é executadoSageMaker HyperPod DLAMI, o que configura um ambiente de ML nos HyperPod clusters. Você pode configurar personalizações adicionais para o DLAMI fornecendo scripts de ciclo de vida para dar suporte ao seu caso de uso. Para saber mais sobre como configurar scripts de ciclo de vida, consulte e. Começando com SageMaker HyperPod SageMaker HyperPod melhores práticas de configuração do ciclo de vida

Agendamento de trabalhos

Depois de criar um HyperPod cluster com sucesso, os usuários do cluster podem fazer login nos nós do cluster (como nó principal ou controlador, nó de login e nó de trabalho) e agendar trabalhos para executar cargas de trabalho de aprendizado de máquina. Para saber mais, consulte Execute trabalhos em SageMaker HyperPod clusters.

Resiliência contra falhas de hardware

SageMaker HyperPod executa verificações de integridade nos nós do cluster e fornece uma funcionalidade de retomada automática da carga de trabalho. Com os recursos de resiliência de cluster do HyperPod, você pode retomar sua carga de trabalho a partir do último ponto de verificação salvo, depois que os nós defeituosos forem substituídos por outros íntegros em clusters com mais de 16 nós. Para saber mais, consulte SageMaker HyperPod resiliência de clusters.

Registro e gerenciamento de clusters

Você pode encontrar métricas SageMaker HyperPod de utilização de recursos e registros do ciclo de vida na Amazon CloudWatch e gerenciar SageMaker HyperPod recursos marcando-os. Cada execução de CreateCluster API cria um fluxo de registros distinto, nomeado em <cluster-name>-<timestamp> formato. No fluxo de log, você pode verificar os nomes dos hosts, o nome dos scripts de ciclo de vida com falha e as saídas dos scripts com falha, como e. stdout stderr Para ter mais informações, consulte SageMaker HyperPod gerenciamento de clusters.

Compatível com SageMaker ferramentas

Usando SageMaker HyperPod, você pode configurar clusters com bibliotecas de comunicação coletiva AWS otimizadas oferecidas pela SageMaker, como a biblioteca de paralelismo de dados SageMaker distribuídos (SMDDP). A biblioteca SMDDP implementa a AllGather operação otimizada para a infraestrutura de AWS computação e rede para as instâncias de aprendizado de SageMaker máquina de maior desempenho com GPUs NVIDIA A100. Para saber mais, consulte Execute cargas de trabalho de treinamento distribuídas com o Slurm on SageMaker HyperPod.