Configuração de várias filas - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Configuração de várias filas

Com a AWS ParallelCluster versão 3, você pode configurar várias filas definindo o Schedulerpara slurm e especificando mais de uma fila para SlurmQueues no arquivo de configuração. Nesse modo, diferentes tipos de instância coexistem nos nós de computação especificados na seção ComputeResources do arquivo de configuração. ComputeResources com diferentes tipos de instância têm a escala aumentada ou reduzida conforme necessário para o SlurmQueues.

Geralmente, várias filas em um único cluster são preferidas a vários clusters quando as cargas de trabalho compartilham a mesma infraestrutura e os mesmos recursos subjacentes (como armazenamento compartilhado, rede ou nós de login). Se as cargas de trabalho tiverem necessidades semelhantes de computação, armazenamento e rede, usar várias filas em um único cluster é mais eficiente, pois permite o compartilhamento de recursos e evita duplicações desnecessárias. Essa abordagem simplifica o gerenciamento e reduz a sobrecarga, ao mesmo tempo em que permite o agendamento eficiente de trabalhos e a alocação de recursos. Por outro lado, vários clusters devem ser usados quando há fortes requisitos de segurança, dados ou isolamento operacional entre cargas de trabalho. Por exemplo, se você precisar gerenciar e operar cargas de trabalho de forma independente, com diferentes cronogramas, ciclos de atualização ou políticas de acesso, vários clusters são mais apropriados.

Filas de clusters e cotas de recursos de computação
Recurso Quota

Slurm queues

50 filas por cluster

Compute resources

50 recursos de computação por fila

50 recursos de computação por cluster

Contagem de nós

Cada recurso de computação em ComputeResources para uma fila deve ter um Name, InstanceType, MinCount, e MaxCount exclusivos. MinCount e MaxCount têm valores padrão que definem o intervalo de instâncias de um recurso de computação em ComputeResources para uma fila. Você também pode especificar seus próprios valores para MinCount e MaxCount. Cada recurso de computação em ComputeResources é composto por nós estáticos numerados de 1 até o valor de MinCount e nós dinâmicos numerados do valor de MinCount até o valor de MaxCount.

Exemplo de configuração

A seguir, veja um exemplo de uma seção de Programação para um arquivo de configuração de cluster. Nessa configuração, há duas filas nomeadas queue1 e queue2 e cada uma delas tem uma ComputeResources com uma MaxCount especificada.

Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge

Hostnames

As instâncias que são lançadas na frota de computação são atribuídas dinamicamente. Os nomes de host são gerados para cada nó. Por padrão, AWS ParallelCluster usará o seguinte formato do nome do host:

$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM

  • $QUEUE é o nome da fila. Por exemplo, se a seção SlurmQueues tiver uma entrada com o Name definido como “queue-name”, então “$QUEUE” será “queue-name”.

  • $STATDYN é st para nós estáticos ou dy para nós dinâmicos.

  • $COMPUTE_RESOURCE é o Name do recurso de computação ComputeResources correspondente a esse nó.

  • $NODENUM é o número do nó. $NODENUM fica entre um (1) e o valor de MinCount para nós estáticos e entre um (1) e MaxCount-MinCount para nós dinâmicos.

Do arquivo de configuração de exemplo acima, um determinado nó da queue1 e um recurso de computação c5xlarge têm um nome de host: queue1-dy-c5xlarge-1.

Tanto os nomes de host quanto os nomes de domínio totalmente qualificados (FQDN) são criados usando zonas hospedadas do Amazon Route 53. O FQDN é $HOSTNAME.$CLUSTERNAME.pcluster, sendo $CLUSTERNAME o nome do cluster.

Observe que o mesmo formato também será usado para os nomes de nós Slurm.

Os usuários podem escolher usar o EC2 nome de host padrão da Amazon da instância que alimenta o nó de computação em vez do formato de nome de host padrão usado por. AWS ParallelCluster Isso pode ser feito definindo o parâmetro UseEc2Hostnames como verdadeiro. No entanto, os nomes dos Slurm nós continuarão usando o AWS ParallelCluster formato padrão.