Tamaño y actualización de la capacidad del clúster Actualización de la capacidad del clúster Consideraciones y limitaciones Impactos en los trabajos Proceso de actualización de un clúster con cambios de capacidad Versiones de clúster y SLURM compatibles

Slurm Workload Manager (`slurm`)

Tamaño y actualización de la capacidad del clúster

La capacidad del clúster se define por la cantidad de nodos de computación que es capaz de escalar. Los nodos de cómputo están respaldados por EC2 instancias de Amazon definidas dentro de los recursos de cómputo de la AWS ParallelCluster configuración (Scheduling/SlurmQueues/ComputeResources) y están organizados en colas (Scheduling/SlurmQueues) que se asignan 1:1 a Slurm particiones.

Dentro de un recurso de cómputo, es posible configurar el número mínimo de nodos de cómputo (instancias) que deben mantenerse siempre en ejecución en el clúster (MinCount) y el número máximo de instancias al que el recurso de cómputo puede escalar (MaxCount3).

En el momento de la creación del clúster, o tras una actualización del clúster, AWS ParallelCluster lanza tantas EC2 instancias de Amazon como estén configuradas MinCount para cada recurso informático (Scheduling/SlurmQueues/ ComputeResources) definido en el clúster. Las instancias lanzadas para cubrir la cantidad mínima de nodos de un recurso de computación del clúster se denominan nodos estáticos. Una vez iniciados, los nodos estáticos deben permanecer en el clúster y el sistema no los termina a menos que se produzca un evento o una condición en particular. Estos eventos incluyen, por ejemplo, el fallo de Slurm o los controles EC2 de salud de Amazon y el cambio de Slurm el estado del nodo es DRAIN o DOWN.

Las EC2 instancias de Amazon, en el rango de 1 0 a ‘MaxCount - MinCount’ (MaxCount menos) MinCount), lanzadas bajo demanda para hacer frente al aumento de carga del clúster, se denominan nodos dinámicos. Su naturaleza es efímera: se lanzan para atender tareas pendientes y se cancelan una vez que permanecen inactivas durante un período de tiempo definido Scheduling/SlurmSettings/ScaledownIdletime en la configuración del clúster (predeterminado: 10 minutos).

Los nodos estáticos y los nodos dinámicos cumplen con el siguiente esquema de nomenclatura:

Nodos estáticos <Queue/Name>-st-<ComputeResource/Name>-<num>, en los que <num> = 1..ComputeResource/MinCount
Nodos dinámicos <Queue/Name>-dy-<ComputeResource/Name>-<num>, donde <num> = 1..(ComputeResource/MaxCount - ComputeResource/MinCount)

Por ejemplo, dada la siguiente configuración: AWS ParallelCluster



Scheduling:  
    Scheduler: Slurm  
    SlurmQueues:    
        - Name: queue1      
            ComputeResources:        
                - Name: c5xlarge          
                    Instances:            
                        - InstanceType: c5.xlarge          
                        MinCount: 100          
                        MaxCount: 150

Los siguientes nodos se definirán en Slurm



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Cuando un recurso de computación tiene MinCount == MaxCount, todos los nodos de computación correspondientes serán estáticos y todas las instancias se lanzarán en el momento de la creación o actualización del clúster y se mantendrán en funcionamiento. Por ejemplo:



Scheduling:
  Scheduler: slurm
  SlurmQueues:
    - Name: queue1
      ComputeResources:
        - Name: c5xlarge
          Instances:
            - InstanceType: c5.xlarge
          MinCount: 100
          MaxCount: 100



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualización de la capacidad del clúster

La actualización de la capacidad del clúster incluye añadir o eliminar colas, recursos de computación o cambiar el parámetro MinCount/MaxCount de un recurso de computación. A partir de la AWS ParallelCluster versión 3.9.0, para reducir el tamaño de una cola es necesario detener la flota informática o QueueUpdateStrategyconfigurarla en TERMINATE antes de que se lleve a cabo la actualización del clúster. No es necesario detener la flota de cómputo ni configurarla en TERMINATE QueueUpdateStrategycuando:

Adición de nuevas colas en Programación/SlurmQueues
Adición de nuevos recursos de computación Scheduling/SlurmQueues/ComputeResources a una cola
Aumento de MaxCount de un recurso de computación
Aumento MinCount de un recurso informático y aumento MaxCount del mismo recurso informático en al menos la misma cantidad

Consideraciones y limitaciones

El objetivo de esta sección es explicar los factores, restricciones o limitaciones importantes que se deben tener en cuenta al cambiar el tamaño de la capacidad del clúster.

Al eliminar una cola de Scheduling/SlurmQueues todos los nodos de cómputo con su nombre<Queue/Name>-*, tanto estático como dinámico, se eliminará del Slurm la configuración y las EC2 instancias de Amazon correspondientes se cancelarán.
Al eliminar un recurso Scheduling/SlurmQueues/ComputeResources de cómputo de una cola, todos los nodos de cómputo con su nombre<Queue/Name>-*-<ComputeResource/Name>-*, tanto estáticos como dinámicos, se eliminarán del Slurm la configuración y las EC2 instancias de Amazon correspondientes se cancelarán.

Al cambiar el parámetro MinCount de un recurso de computación, podemos distinguir dos escenarios diferentes: si MaxCount es igual que MinCount (solo capacidad estática) y si MaxCount es mayor que MinCount (capacidad estática y dinámica mixta).

Cambios en la capacidad solo con los nodos estáticos

SiMinCount == MaxCount, al aumentar MinCount (yMaxCount), el clúster se configurará ampliando el número de nodos estáticos hasta el nuevo valor de MinCount <Queue/Name>-st-<ComputeResource/Name>-<new_MinCount> y el sistema seguirá intentando lanzar EC2 instancias de Amazon para cumplir con la nueva capacidad estática requerida.

SiMinCount == MaxCount, al disminuir MinCount (yMaxCount) la cantidad N, el clúster se configurará eliminando los últimos N nodos estáticos <Queue/Name>-st-<ComputeResource/Name>-<old_MinCount - N>...<old_MinCount>] y el sistema cancelará las EC2 instancias de Amazon correspondientes.

Estado inicial MinCount = MaxCount = 100



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualización de -30 en MinCount y MaxCount: MinCount = MaxCount = 70



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     70   idle queue1-st-c5xlarge-[1-70]

Cambios en la capacidad con nodos mixtos

SiMinCount < MaxCount, al aumentar MinCount en una cantidad N (suponiendo que MaxCount se mantenga sin cambios), el clúster se configurará ampliando el número de nodos estáticos hasta el nuevo valor de MinCount (old_MinCount + N): <Queue/Name>-st-<ComputeResource/Name>-<old_MinCount + N> y el sistema seguirá intentando lanzar EC2 instancias de Amazon para cumplir con la nueva capacidad estática requerida. Además, para respetar la MaxCount capacidad del recurso informático, la configuración del clúster se actualiza eliminando los últimos N nodos dinámicos <Queue/Name>-dy-<ComputeResource/Name>-[<MaxCount - old_MinCount - N>...<MaxCount - old_MinCount>] y el sistema finalizará las EC2 instancias de Amazon correspondientes.

Estado inicial: MinCount = 100; MaxCount = 150



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualice a +30 en MinCount : MinCount = 130 (MaxCount = 150)



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     20  idle~ queue1-dy-c5xlarge-[1-20]
queue1*      up   infinite    130   idle queue1-st-c5xlarge-[1-130]

SiMinCount < MaxCount, al aumentar N MinCount y en MaxCount la misma cantidad, el clúster se configurará ampliando el número de nodos estáticos hasta el nuevo valor de MinCount (old_MinCount + N): <Queue/Name>-st-<ComputeResource/Name>-<old_MinCount + N> y el sistema seguirá intentando lanzar EC2 instancias de Amazon para cumplir con la nueva capacidad estática requerida. Además, no se realizará ningún cambio en el número de nodos dinámicos para adaptarlo al nuevo

valor de MaxCount.

Estado inicial: MinCount = 100; MaxCount = 150



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualice a +30 en MinCount : MinCount = 130 (MaxCount = 180)



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     20  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    130   idle queue1-st-c5xlarge-[1-130]

SiMinCount < MaxCount, al disminuir la MinCount cantidad N (suponiendo que MaxCount se mantenga sin cambios), el clúster se configurará eliminando los últimos N nodos estáticos de los últimos N nodos estáticos <Queue/Name>-st-<ComputeResource/Name>-[<old_MinCount - N>...<old_MinCount> y el sistema cancelará las EC2 instancias de Amazon correspondientes. Además, para respetar la MaxCount capacidad del recurso informático, la configuración del clúster se actualiza ampliando el número de nodos dinámicos para cubrir el vacío. MaxCount - new_MinCount: <Queue/Name>-dy-<ComputeResource/Name>-[1..<MazCount - new_MinCount>] En este caso, dado que se trata de nodos dinámicos, no se lanzará ninguna nueva EC2 instancia de Amazon a menos que el planificador tenga tareas pendientes en los nuevos nodos.

Estado inicial: MinCount = 100; MaxCount = 150



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualización de -30 en MinCount : MinCount = 70 (MaxCount = 120)



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     80  idle~ queue1-dy-c5xlarge-[1-80]
queue1*      up   infinite     70   idle queue1-st-c5xlarge-[1-70]

SiMinCount < MaxCount, al disminuir MinCount y MaxCount de la misma cantidad N, el clúster se configurará eliminando los últimos N nodos estáticos <Queue/Name>-st-<ComputeResource/Name>-<old_MinCount - N>...<oldMinCount>] y el sistema cancelará las EC2 instancias de Amazon correspondientes.

Además, no se realizará ningún cambio en el número de nodos dinámicos para adaptarlo al nuevo valor de MaxCount.

Estado inicial: MinCount = 100; MaxCount = 150



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualización de -30 en MinCount : MinCount = 70 (MaxCount = 120)



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     80  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite     70   idle queue1-st-c5xlarge-[1-70]

SiMinCount < MaxCount, al disminuir la MaxCount cantidad N (suponiendo que MinCount se mantenga sin cambios), el clúster se configurará eliminando los últimos N nodos dinámicos <Queue/Name>-dy-<ComputeResource/Name>-<old_MaxCount - N...<oldMaxCount>] y el sistema cancelará las EC2 instancias de Amazon correspondientes en caso de que se estuvieran ejecutando. No se espera ningún impacto en los nodos estáticos.

Estado inicial: MinCount = 100; MaxCount = 150



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     50  idle~ queue1-dy-c5xlarge-[1-50]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Actualización de -30 en MaxCount : MinCount = 100 (MaxCount = 120)



$ sinfo
PARTITION AVAIL  TIMELIMIT  NODES  STATE NODELIST
queue1*      up   infinite     20  idle~ queue1-dy-c5xlarge-[1-20]
queue1*      up   infinite    100   idle queue1-st-c5xlarge-[1-100]

Impactos en los trabajos

En todos los casos en los que se eliminen los nodos y se cancelen EC2 las instancias de Amazon, se volverá a poner en cola un trabajo por lotes que se ejecute en los nodos eliminados, a menos que no haya otros nodos que cumplan con los requisitos del trabajo. En este último caso, el trabajo falla con el estado NODE_FAIL y desaparece de la cola, por lo que debe volver a enviarse manualmente.

Si planea realizar una actualización de tamaño del clúster, puede impedir que los trabajos se ejecuten en nodos que se vayan a eliminar durante la actualización planificada. Esto se puede hacer configurando los nodos que se eliminarán durante el mantenimiento. Tenga en cuenta que poner un nodo en mantenimiento no afectaría a los trabajos que se estuviesen ejecutando en ese momento en el nodo.

Supongamos que con la actualización planificada para cambiar el tamaño del clúster se va a eliminar el nodoqeueu-st-computeresource-[9-10]. Puede crear un Slurm reserva con el siguiente comando


sudo -i scontrol create reservation ReservationName=maint_for_update user=root starttime=now duration=infinite flags=maint,ignore_jobs nodes=qeueu-st-computeresource-[9-10]

Esto creará un Slurm reserva nombrada maint_for_update en los nodosqeueu-st-computeresource-[9-10]. Desde el momento en que se crea la reserva, no se pueden ejecutar más trabajos en los nodos qeueu-st-computeresource-[9-10]. Tenga en cuenta que la reserva no impedirá que haya trabajos que acaben asignándose a los nodos qeueu-st-computeresource-[9-10].

Tras la actualización del tamaño del clúster, si Slurm la reserva se estableció solo en los nodos que se eliminaron durante la actualización del cambio de tamaño, la reserva de mantenimiento se eliminará automáticamente. Si, por el contrario, hubieras creado un Slurm reserva en los nodos que aún están presentes después de la actualización de cambio de tamaño del clúster, es posible que deseemos eliminar la reserva de mantenimiento en los nodos una vez realizada la actualización de cambio de tamaño mediante el siguiente comando


sudo -i scontrol delete ReservationName=maint_for_update

Para obtener información adicional sobre Slurm Para hacer su reserva, consulte el documento oficial de SchedMD aquí.

Proceso de actualización de un clúster con cambios de capacidad

Tras un cambio en la configuración del programador, se ejecutan los siguientes pasos durante el proceso de actualización del clúster:

¡Pare AWS ParallelCluster clustermgtd (supervisorctl stop clustermgtd)
Generar actualizaciones Slurm particiona la configuración a partir de AWS ParallelCluster la configuración
Se reinicia slurmctld (mediante la receta del servicio Chef)
Se comprueba el estado de slurmctld (systemctl is-active --quiet slurmctld.service)
Reload (Volver a cargar) Slurm configuración (scontrol reconfigure)
Se inicia clustermgtd (supervisorctl start clustermgtd)

Para obtener más información Slurm, consulte https://slurm.schedmd.com. Para descargas, consulte https://github.com/SchedMD/slurm/tags. Para ver el código fuente, consulte slurm. https://github.com/SchedMD/

Versiones de clúster y SLURM compatibles

En la siguiente tabla se muestran las y AWS ParallelCluster Slurm versiones AWS compatibles.

AWS ParallelCluster versión (s)	Compatible Slurm versión
3.13.0	24,05,07
3.12.0	23,11,10
3.11.0	23,11,10
3.9.2, 3.9.3, 3.10.0	23,11,7
3.9.0, 3.9.1	23,11,4
3.8.0	23.02.7
3.7.2	23.02.6
3.7.1	23,02.5
3.7.0	23,02.4
3.6.0, 3.6.1	23.02.2
3.5.0, 3.5.1	22.05.8
3.4.0, 3.4.1	22.05.7
3.3.0, 3.3.1	22.05.5
3.1.4, 3.1.5, 3.2.0, 3.2.1	21.08.8-2
3.1.2, 3.1.3	21,08.6
3.1.1	21.08.5
3.0.0	20,11,8

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Programadores compatibles con AWS ParallelCluster

Configuración de varias colas

Slurm Workload Manager (slurm)