Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Procesos de AWS ParallelCluster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Procesos de AWS ParallelCluster

Esta sección se aplica a los clústeres que se implementan con Slurm. Al usarse con este programador, AWS ParallelCluster administra el aprovisionamiento del nodo de computación y su eliminación interactuando con el programador de trabajos subyacente.

Para clústeres de HPC basados en AWS Batch, AWS ParallelCluster se basa en las capacidades que AWS Batch proporciona para la administración de nodos de computación.

clustermgtd

Las siguientes tareas las realiza el daemon de administración de clústeres.

  • Limpieza de particiones inactivas

  • Gestión de reservas de Slurm y nodos asociados a los bloques de capacidad (consulte la siguiente sección)

  • Administración de la capacidad estática: asegúrese de que la capacidad estática esté siempre activa y en buen estado

  • Programador de sincronización con Amazon EC2.

  • Limpieza de instancias huérfanas

  • Restaure el estado del nodo del programador en la terminación de Amazon EC2 que se produce fuera del flujo de trabajo suspendido

  • Administración de instancias de Amazon EC2 en mal estado (comprobaciones de estado de Amazon EC2 fallidas)

  • Administración de eventos de mantenimiento programados

  • Administración de los nodos del programador en mal estado (comprobaciones de estado del programador fallidas)

Gestión de reservas de Slurm y nodos asociados a los bloques de capacidad

ParallelCluster admite reservas de capacidad bajo demanda (ODCR) y bloques de capacidad (CB) para machine learning. A diferencia de las ODCR, los bloques de capacidad pueden tener una hora de inicio en el futuro y tienen una duración finita en el tiempo.

Clustermgtd busca nodos en mal estado en un bucle y finaliza cualquier instancia de Amazon EC2 que esté inactiva, sustituyéndola por instancias nuevas si son nodos estáticos.

ParallelCluster gestiona los nodos estáticos a los que se asocian bloques de capacidad de una forma distinta. AWS ParallelCluster crea un clúster aunque el CB todavía no esté activo y las instancias se lanzan automáticamente una vez que el CB está activo.

Los nodos de Slurm que se corresponden con los recursos de computación asociados a bloques de capacidad que aún no están activos, permanecen en mantenimiento hasta que llega la hora de inicio del CB. Los nodos de Slurm permanecen en estado de reserva o mantenimiento y están asociados al usuario administrador de Slurm, lo que significa que pueden aceptar trabajos, pero que permanecerán pendientes hasta que se elimine la reserva de Slurm.

Clustermgtd creará o eliminará reservas de Slurm automáticamente y pondrá en mantenimiento los nodos de CB relacionados en función del estado del bloque de capacidad. Cuando el CB se activa, la reserva de Slurm se elimina, los nodos se inician y quedan disponibles para los trabajos pendientes o para enviar nuevos trabajos.

Cuando se alcanza la hora de finalización del CB, los nodos vuelven a un estado de reserva o mantenimiento. Corresponde a los usuarios volver a enviar los trabajos o volver a ponerlos en cola en una nueva cola o recurso de computación cuando el CB ya no esté activo y las instancias se finalicen.

clusterstatusmgtd

El daemon de administración del estado del clúster administra la actualización del estado de la flota de computación. Cada minuto recupera el estado de la flota almacenado en una tabla de DynamoDB y administra cualquier solicitud STOP/START.

computemgtd

Los procesos de daemon (computemgtd) de administración de computación se ejecutan en cada uno de los nodos de computación del clúster. Cada cinco (5) minutos, el daemon de administración de computación confirma que se puede acceder al nodo principal y que está en buen estado. Si transcurren cinco (5) minutos durante los cuales no se puede acceder al nodo principal o este no está en buen estado, el nodo de computación se cierra.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.