Personalização de configuração do Slurm - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Personalização de configuração do Slurm

A partir do AWS ParallelCluster versão 3.6.0, você pode personalizar a configuração do Slurm slurm.conf em uma configuração de cluster do AWS ParallelCluster.

Na configuração do cluster, você pode personalizar os parâmetros de configuração do Slurm usando as seguintes definições de configuração do cluster:

Considerações de limites de personalização de configuração do Slurm ao usar o AWS ParallelCluster

  • Para as configurações CustomSlurmSettings e CustomSlurmSettingsIncludeFile, você só pode especificar e atualizar os parâmetros do slurm.conf incluídos na Slurmversão compatível com a versão do AWS ParallelCluster que você está usando para configurar um cluster.

  • Se você especificar configurações personalizadas do Slurm em qualquer um dos parâmetros CustomSlurmSettings, AWS ParallelCluster executará verificações de validação e evitará definir ou atualizar parâmetros de configuração do Slurm que entrem em conflito com a lógica do AWS ParallelCluster. Os parâmetros de configuração do Slurm com os quais se sabe que entram em conflito com o AWS ParallelCluster são identificados nas listas de negação. As listas de negação podem mudar em versões futuras do AWS ParallelCluster se outros recursos do Slurm forem adicionados. Para obter mais informações, consulte Parâmetros de configuração do Slurm listados como negados para CustomSlurmSettings.

  • O AWS ParallelCluster só verifica se um parâmetro está em uma lista de negação. O AWS ParallelCluster não valida a sintaxe ou a semântica do parâmetro de configuração do Slurm personalizada por você. Você é responsável por validar seus parâmetros de configuração personalizados do Slurm. Parâmetros de configuração personalizados do Slurm inválidos podem causar falhas no daemon do Slurm que podem levar a falhas na criação e atualização do cluster.

  • Se você especificar configurações personalizadas do Slurm em CustomSlurmSettingsIncludeFile, o AWS ParallelCluster não executará nenhuma validação.

  • Você pode atualizar CustomSlurmSettings e CustomSlurmSettingsIncludeFile sem parar e iniciar a frota de computação. Nesse caso, AWS ParallelCluster reinicia o daemon do slurmctld e executa o comando scontrol reconfigure.

    Alguns parâmetros de configuração Slurm podem exigir operações diferentes antes que uma alteração seja registrada em todo o cluster. Por exemplo, eles podem exigir a reinicialização de todos os daemons no cluster. Você é responsável por verificar se as operações do AWS ParallelCluster são suficientes para propagar suas definições de parâmetros personalizados de configuração do Slurm durante as atualizações. Se você achar que as operações do AWS ParallelCluster não são suficientes, é sua responsabilidade fornecer as ações adicionais necessárias para propagar as configurações atualizadas, conforme recomendado na documentação do Slurm.

Parâmetros de configuração do Slurm listados como negados para CustomSlurmSettings

As tabelas a seguir listam os parâmetros com as versões do AWS ParallelCluster que negam seu uso, começando com a versão 3.6.0. CustomSlurmSettings não é compatível com versões do AWS ParallelCluster anteriores à versão 3.6.0.

Parâmetros listados na lista de negação no nível do cluster:
Parâmetro Slurm Lista de negação nas versões do AWS ParallelCluster

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

Prolog

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

Parâmetros listados na lista de negação no nível do cluster quando a integração contábil nativa do Slurm está configurada na configuração do cluster:
Parâmetro Slurm Lista de negação nas versões do AWS ParallelCluster

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

Parâmetros listados na lista de negação no nível da fila (partição) para filas gerenciadas pelo AWS ParallelCluster:
Parâmetro Slurm Lista de negação nas versões do AWS ParallelCluster

Nodes

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

State

3.6.0

SuspendTime

3.6.0

Parâmetros listados na lista de negação no nível do recurso de computação (nó) para recursos de computação gerenciados pelo AWS ParallelCluster:
Parâmetro Slurm Lista de negação na versão do AWS ParallelCluster e em versões posteriores

CPUs

3.6.0

Recursos

3.6.0

Gres

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

Weight

3.7.0