Notas de lançamento das versões do Slurm no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Notas de lançamento das versões do Slurm no PCS AWS

Este tópico descreve mudanças importantes para cada versão do Slurm atualmente suportada no AWS PCS. Recomendamos que você analise as alterações entre a versão antiga e a nova ao atualizar seu cluster.

Mudanças implementadas no AWS PCS

Para obter mais informações sobre o Slurm 24.11, consulte as seguintes publicações:

Mudanças implementadas no AWS PCS
  • O novo módulo Slurm Step Manager agora está habilitado por padrão no AWS PCS. Esse módulo oferece benefícios significativos ao transferir o gerenciamento de etapas do controlador central para os nós de computação, melhorando substancialmente a simultaneidade do sistema em ambientes com uso intenso de etapas. Para suportar essa configuração e melhor isolar Prolog e Epilog processar a execução, novos sinalizadores de prólogo (Contain,Alloc) são habilitados.

  • A comunicação hierárquica do controlador para os nós de computação é habilitada para otimizar a comunicação entre nós do Slurm, o que melhora a escalabilidade e o desempenho. Além disso, a configuração de roteamento agora usa listas de nós de partição para comunicações do controlador, em vez do algoritmo de roteamento padrão do plug-in, aprimorando a resiliência do sistema.

  • Um novo plugin de hash HashPlugin=hash/sha3 substitui o anterior. hash/k12 plugin Agora, isso está habilitado por padrão nos clusters AWS PCS.

  • Os registros do controlador Slurm agora incluem recursos aprimorados de auditoria para todas as chamadas de procedimento remoto (RPC) de entrada para. slurmctld Os registros incluem o endereço de origem, o usuário autenticado e o tipo de RPC antes do processamento da conexão.

Para obter mais informações sobre o Slurm 24.05, consulte as seguintes publicações:

Configurações do Slurm que você pode alterar no PCS AWS
  • O SuspendTime padrão é. 60 Use o parâmetro scaleDownIdleTimeInSeconds de configuração AWS PCS para defini-lo. Para obter mais informações, consulte o scaleDownIdleTimeInSecondsparâmetro do tipo de ClusterSlurmConfiguration dados na Referência da API AWS PCS.

  • O MaxJobCount e MaxArraySize é baseado no tamanho que você escolher para o cluster. Para obter mais informações, consulte o sizeparâmetro da ação da CreateCluster API na Referência da API AWS PCS.

  • A configuração do SelectTypeParameters Slurm é padronizada como. CR_CPU Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um cluster. Para obter mais informações, consulte o slurmCustomSettingsparâmetro da ação da CreateCluster API e SlurmCustomSettingna Referência da API AWS PCS.

  • Você pode definir Prolog e Epilog no nível do cluster. Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um cluster. Para obter mais informações, consulte CreateClustere SlurmCustomSettingna Referência da API AWS PCS.

  • Você pode definir Weight e RealMemory no nível do grupo de nós de computação. Você pode fornecê-lo como um valor slurmCustomSettings para defini-lo ao criar um grupo de nós de computação. Para obter mais informações, consulte CreateComputeNodeGroupe SlurmCustomSettingna Referência da API AWS PCS.