clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster procesos

Esta sección se aplica a los clústeres que se implementan con Slurm. Cuando se utiliza con este programador, AWS ParallelCluster interactúa con el programador de tareas subyacente para gestionar el aprovisionamiento y la eliminación de los nodos de cómputo.

En el caso de los clústeres de HPC basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que proporciona para gestionar los nodos de AWS Batch procesamiento.

`clustermgtd`

El daemon de administración de clústeres (clustermgtd) realiza las siguientes tareas:

Limpie las particiones inactivas
Administración Slurm reservas y nodos asociados a los bloques de capacidad (consulte la siguiente sección)
Administre la capacidad estática para asegurarse de que esté siempre activa y en buen estado
Sincroniza el programador con Amazon EC2.
Limpia las instancias huérfanas
Restaure el estado del nodo programador en caso de una EC2 rescisión de Amazon que se produzca fuera del flujo de trabajo suspendido
Gestiona las EC2 instancias de Amazon que no estén en buen estado (aquellas que no pasen los controles EC2 de estado de Amazon)
Gestione los eventos de mantenimiento programados
Gestione los nodos del programador en mal estado (aquellos que no pasan las comprobaciones de estado del programador)

Gestión de Slurm reservas y nodos asociados a los bloques de capacidad

ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad para Machine Learning (CB). A diferencia de las ODCR, los bloques de capacidad pueden tener una hora de inicio en el futuro y tienen una duración finita en el tiempo.

clustermgtdbusca nodos en mal estado en un bucle, cierra las EC2 instancias de Amazon que estén inactivas y las reemplaza por instancias nuevas si son nodos estáticos.

AWS ParallelCluster gestiona los nodos estáticos asociados a los bloques de capacidad de forma diferente: crea un clúster aunque el CB aún no esté activo y lanza automáticamente las instancias una vez que el CB está activo.

La Slurm los nodos que corresponden a los recursos informáticos asociados a los CBs que aún no están activos se mantienen en estado de mantenimiento hasta que se alcanza la hora de inicio del CB. Estos Slurm los nodos permanecen en un estado de reserva o mantenimiento asociado a Slurm usuario administrador, lo que significa que puede aceptar trabajos, pero los trabajos permanecen pendientes hasta que Slurm se elimina la reserva.

clustermgtdcrea o elimina automáticamente Slurm reservas: coloca los nodos CB relacionados en un estado de mantenimiento basado en el estado del CB. Cuando el CB se activa, el Slurm si se elimina la reserva, los nodos se inician y pasan a estar disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.

Cuando se alcanza la hora de finalización del CB, los nodos se devuelven a un reservation/maintenance state. It's up to users to resubmit/requeue the jobs to a new queue/compute recurso cuando el CB ya no está activo y las instancias se cierran.

`clusterstatusmgtd`

El daemon de administración del estado del clúster (clusterstatusmgtd) administra la actualización del estado de la flota de cómputo. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y administra cualquier solicitud STOP/START.

`computemgtd`

Los procesos del daemon de administración de cómputo (computemgtd) se ejecutan en cada uno de los nodos de cómputo del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Cómo AWS ParallelCluster funciona

AWS servicios utilizados por AWS ParallelCluster