AWS ParallelCluster procesos - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS ParallelCluster procesos

Esta sección se aplica a los clústeres que se implementan con Slurm. Cuando se utiliza con este programador, AWS ParallelCluster gestiona el aprovisionamiento y la eliminación de los nodos de cómputo interactuando con el programador de tareas subyacente.

En el caso de los clústeres de HPC basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que proporciona AWS Batch para la gestión de los nodos de procesamiento.

clustermgtd

Las siguientes tareas las realiza el daemon de administración de clústeres.

  • Limpieza de particiones inactivas

  • Gestión de las Slurm reservas y los nodos asociados a los bloques de capacidad (consulte la siguiente sección)

  • Administración de la capacidad estática: asegúrese de que la capacidad estática esté siempre activa y en buen estado

  • Programador de sincronización con Amazon EC2.

  • Limpieza de instancias huérfanas

  • Restaure el estado del nodo del programador en la terminación de Amazon EC2 que se produce fuera del flujo de trabajo suspendido

  • Administración de instancias de Amazon EC2 en mal estado (comprobaciones de estado de Amazon EC2 fallidas)

  • Administración de eventos de mantenimiento programados

  • Administración de los nodos del programador en mal estado (comprobaciones de estado del programador fallidas)

Gestión de las Slurm reservas y los nodos asociados a los bloques de capacidad

ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad para Machine Learning (CB). A diferencia de la ODCR, CB puede tener una hora de inicio futura y tiene un límite de tiempo.

Clustermgtd busca nodos en mal estado en un bucle y termina cualquier instancia de Amazon EC2 que esté inactiva, sustituyéndola por instancias nuevas si son nodos estáticos.

ParallelCluster gestiona los nodos estáticos asociados a los bloques de capacidad de forma diferente. AWS ParallelCluster crea un clúster incluso si el CB aún no está activo, y las instancias se lanzan automáticamente una vez que el CB está activo.

Los Slurm nodos correspondientes a los recursos informáticos asociados a los CB que aún no están activos se mantienen en mantenimiento hasta que se alcanza la hora de inicio del CB. Slurmlos nodos permanecerán en un estado de reserva o mantenimiento asociado al usuario Slurm administrador, lo que significa que pueden aceptar trabajos, pero los trabajos permanecerán pendientes hasta que se elimine la Slurm reserva.

Clustermgtd creará o eliminará Slurm reservas automáticamente y pondrá en mantenimiento los nodos CB relacionados en función del estado del CB. Cuando el CB esté activo, se eliminará la Slurm reserva, se iniciarán los nodos y estarán disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.

Cuando se alcance la hora de finalización del CB, los nodos volverán a un estado de reserva o mantenimiento. Corresponde a los usuarios volver a enviar los trabajos o volver a ponerlos en cola en una nueva cola o recurso informático cuando el CB ya no esté activo y las instancias se cierren.

clusterstatusmgtd

El daemon de administración del estado del clúster administra la actualización del estado de la flota de computación. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y administra cualquier solicitud STOP/START.

computemgtd

Los procesos de daemon (computemgtd) de administración de computación se ejecutan en cada uno de los nodos de computación del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.