clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster processus

Cette section s'applique aux clusters déployés avec Slurm. Lorsqu'il est utilisé avec ce planificateur, il AWS ParallelCluster interagit avec le planificateur de tâches sous-jacent pour gérer le provisionnement et la suppression des nœuds de calcul.

Pour les clusters HPC basés sur AWS Batch, AWS ParallelCluster s'appuie sur les fonctionnalités fournies par AWS Batch pour gérer les nœuds de calcul.

`clustermgtd`

Le démon de gestion de cluster (clustermgtd) exécute les tâches suivantes :

Nettoyez les partitions inactives
Gérer Slurm réservations et nœuds associés aux blocs de capacité (voir la section suivante)
Gérez la capacité statique pour vous assurer qu'elle est toujours active et saine
Synchronisez le planificateur avec Amazon. EC2
Nettoyer les instances orphelines
Restaurez le statut du nœud du planificateur en cas de EC2 résiliation d'Amazon en dehors du flux de travail de suspension
Gérez les EC2 instances Amazon défaillantes (celles qui échouent aux tests EC2 de santé Amazon)
Gérez les événements de maintenance planifiés
Gérer les nœuds du planificateur défectueux (ceux qui échouent aux tests de santé du planificateur)

Gestion de Slurm réservations et nœuds associés aux Capacity Blocks

ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité pour le Machine Learning (CB). Contrairement à l'ODCR, le CB peut avoir une future heure de début et est limité dans le temps.

clustermgtdrecherche en boucle les nœuds défectueux, met fin à toutes les EC2 instances Amazon inactives et les remplace par de nouvelles instances s'il s'agit de nœuds statiques.

AWS ParallelCluster gère différemment les nœuds statiques associés aux blocs de capacité : il crée un cluster même si le CB n'est pas encore actif, et lance automatiquement les instances une fois que le CB est actif.

Le Slurm les nœuds qui correspondent aux ressources de calcul associées à des nœuds CBs qui ne sont pas encore actifs sont maintenus dans l'état de maintenance jusqu'à ce que l'heure de début du CB soit atteinte. Ces Slurm les nœuds restent dans un état de réservation/maintenance associé au Slurm utilisateur administrateur, ce qui signifie qu'il peut accepter des tâches, mais que celles-ci restent en attente jusqu'au Slurm la réservation est supprimée.

clustermgtdcrée ou supprime automatiquement Slurm réservations : il place les nœuds CB associés dans un état de maintenance basé sur l'état du CB. Lorsque le CB devient actif, le Slurm la réservation est supprimée, les nœuds démarrent et deviennent disponibles pour les tâches en attente ou pour les nouvelles soumissions de tâches.

Lorsque l'heure de fin du CB est atteinte, les nœuds sont replacés vers une reservation/maintenance state. It's up to users to resubmit/requeue the jobs to a new queue/compute ressource lorsque le CB n'est plus actif et les instances sont résiliées.

`clusterstatusmgtd`

Le démon de gestion de l'état du cluster (clusterstatusmgtd) gère la mise à jour de l'état du parc informatique. Chaque minute, il récupère l'état du parc enregistré dans une table DynamoDB et gère toute demande STOP/START.

`computemgtd`

Les processus du démon de gestion du calcul (computemgtd) s'exécutent sur chacun des nœuds de calcul du cluster. Toutes les cinq (5) minutes, le démon de gestion du calcul confirme que le nœud principal est joignable et qu'il est sain. Si cinq (5) minutes s'écoulent pendant lesquelles le nœud principal ne peut pas être atteint ou n'est pas sain, le nœud de calcul est arrêté.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Comment AWS ParallelCluster fonctionne

AWS services utilisés par AWS ParallelCluster