AWS ParallelCluster processus - AWS ParallelCluster

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS ParallelCluster processus

Cette section s'applique aux clusters déployés avecSlurm. Lorsqu'il est utilisé avec ce planificateur, il AWS ParallelCluster gère le provisionnement et la suppression des nœuds de calcul en interagissant avec le planificateur de tâches sous-jacent.

Pour les clusters HPC basés sur AWS Batch, AWS ParallelCluster s'appuie sur les fonctionnalités fournies par le AWS Batch pour la gestion des nœuds de calcul.

clustermgtd

Les tâches suivantes sont effectuées par le démon de gestion du cluster.

  • Nettoyage de partitions inactives

  • Gestion des Slurm réservations et des nœuds associés aux blocs de capacité (voir section suivante)

  • Gestion de la capacité statique : assurez-vous que la capacité statique est toujours active et saine

  • Synchronisez le planificateur avec Amazon EC2.

  • Nettoyage d'une instance orpheline

  • Restaurez l'état du nœud du planificateur lors de la résiliation d'Amazon EC2 survenant en dehors du flux de travail de suspension

  • Gestion des instances Amazon EC2 défectueuse (échec des contrôles de santé Amazon EC2)

  • Gestion des événements de maintenance planifiés

  • Gestion des nœuds du planificateur défaillante (échec des contrôles de santé du planificateur)

Gestion des Slurm réservations et des nœuds associés aux Capacity Blocks

ParallelCluster prend en charge les réservations de capacité à la demande (ODCR) et les blocs de capacité pour le Machine Learning (CB). Contrairement à l'ODCR, le CB peut avoir une future heure de début et est limité dans le temps.

Clustermgtd recherche en boucle les nœuds défectueux et met fin à toutes les instances Amazon EC2 inactives, en les remplaçant par de nouvelles instances s'il s'agit de nœuds statiques.

ParallelCluster gère différemment les nœuds statiques associés aux blocs de capacité. AWS ParallelCluster crée un cluster même si le CB n'est pas encore actif, et les instances sont lancées automatiquement une fois que le CB est actif.

Les Slurm nœuds correspondant aux ressources de calcul associées aux CB qui ne sont pas encore actifs sont maintenus en maintenance jusqu'à ce que l'heure de début des CB soit atteinte. Slurmles nœuds resteront dans un état de réservation/maintenance associé à l'utilisateur Slurm administrateur, ce qui signifie qu'ils peuvent accepter des tâches, mais les tâches resteront en attente jusqu'à ce que la Slurm réservation soit supprimée.

Clustermgtd créera ou supprimera automatiquement des Slurm réservations, mettant les nœuds CB associés en maintenance en fonction de l'état du CB. Lorsque CB sera actif, la Slurm réservation sera supprimée, les nœuds démarreront et seront disponibles pour les tâches en attente ou pour les soumissions de nouvelles offres d'emploi.

Lorsque l'heure de fin du CB est atteinte, les nœuds repassent à l'état de réservation/maintenance. Il appartient aux utilisateurs de soumettre/de mettre en attente les tâches dans une nouvelle file d'attente/ressource de calcul lorsque le CB n'est plus actif et que les instances sont résiliées.

clusterstatusmgtd

Le démon de gestion de l'état du cluster gère la mise à jour de l'état du parc informatique. Chaque minute, il récupère l'état du parc enregistré dans une table DynamoDB et gère toute demande STOP/START.

computemgtd

Les processus Compute Management Daemon (computemgtd) s'exécutent sur chacun des nœuds de calcul du cluster. Toutes les cinq (5) minutes, le démon de gestion du calcul confirme que le nœud principal est joignable et qu'il est sain. Si cinq (5) minutes s'écoulent pendant lesquelles le nœud principal ne peut pas être atteint ou n'est pas sain, le nœud de calcul est arrêté.