AWS ParallelCluster procesos - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS ParallelCluster procesos

Esta sección se aplica a los clústeres que se implementan con Slurm. Cuando se utiliza con este programador, AWS ParallelCluster gestiona el aprovisionamiento y la eliminación de los nodos de cómputo interactuando con el programador de tareas subyacente.

En el HPC caso de los clústeres basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que proporciona AWS Batch para la administración de los nodos de procesamiento.

clustermgtd

Las siguientes tareas las realiza el daemon de administración de clústeres.

  • Limpieza de particiones inactivas

  • Administración de Slurm reservas y nodos asociados a los bloques de capacidad (consulte la siguiente sección)

  • Administración de la capacidad estática: asegúrese de que la capacidad estática esté siempre activa y en buen estado

  • Sincroniza el programador con AmazonEC2.

  • Limpieza de instancias huérfanas

  • Restaure el estado del nodo programador cuando Amazon EC2 finalice fuera del flujo de trabajo suspendido

  • Administración de EC2 instancias de Amazon en mal estado (errores en las comprobaciones EC2 de estado de Amazon)

  • Administración de eventos de mantenimiento programados

  • Administración de los nodos del programador en mal estado (comprobaciones de estado del programador fallidas)

Gestión de Slurm reservas y nodos asociados a los bloques de capacidad

ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad para Machine Learning (CB). A diferencia deODCR, CB puede tener una hora de inicio futura y tiene un límite de tiempo.

Clustermgtd busca nodos en mal estado en un bucle y termina cualquier instancia de EC2 Amazon que esté inactiva, sustituyéndola por instancias nuevas si son nodos estáticos.

ParallelCluster gestiona los nodos estáticos asociados a los bloques de capacidad de forma diferente. AWS ParallelCluster crea un clúster incluso si el CB aún no está activo, y las instancias se lanzan automáticamente una vez que el CB está activo.

La Slurm los nodos correspondientes a los recursos informáticos asociados a los CBs que aún no están activos se mantienen en mantenimiento hasta que se alcanza la hora de inicio del CB. Slurm los nodos permanecerán en un estado de reserva o mantenimiento asociado al Slurm usuario administrador, lo que significa que puede aceptar trabajos, pero los trabajos permanecerán pendientes hasta que Slurm se elimina la reserva.

Clustermgtd creará/eliminará automáticamente Slurm reservas, poniendo en mantenimiento los nodos CB relacionados en función del estado del CB. Cuando el CB esté activo, Slurm se eliminará la reserva, los nodos se iniciarán y estarán disponibles para los trabajos pendientes o para la presentación de nuevos trabajos.

Cuando se alcance la hora de finalización del CB, los nodos volverán a un estado de reserva o mantenimiento. Corresponde a los usuarios volver a enviar los trabajos o volver a ponerlos en cola en una nueva cola o recurso informático cuando el CB ya no esté activo y las instancias se cierren.

clusterstatusmgtd

El daemon de administración del estado del clúster administra la actualización del estado de la flota de computación. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y gestiona cualquier solicitud/. STOP START

computemgtd

Los procesos de daemon (computemgtd) de administración de computación se ejecutan en cada uno de los nodos de computación del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.