Une EC2 instance dans AWS PCS est arrêtée et remplacée après le redémarrage - AWS PCS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Une EC2 instance dans AWS PCS est arrêtée et remplacée après le redémarrage

Vue d'ensemble du problème

Après le redémarrage d'une EC2 instance d'un groupe de nœuds de calcul, AWS PCS met automatiquement fin à l'instance et la remplace.

Pourquoi cela se produit

AWS PCS ne prend pas en charge les redémarrages d'instances. Si une EC2 instance est redémarrée, AWS PCS considère qu'elle est défectueuse et la remplace. Si AWS PCS arrête et remplace continuellement vos instances, cela peut être dû au fait que quelque chose redémarre vos instances après leur lancement. Parmi les exemples, citons les redémarrages automatisés sur l' EC2 instance (tels qu'un redémarrage automatique après l'application de correctifs), l'automatisation externe à l' EC2 instance (telle qu'une application de gestion réseau), un autre AWS service (tel que AWS Systems Manager) ou un redémarrage manuel effectué par une personne.

Que faire

Vous pouvez consulter vos slurmd journaux slurmctld ou vos journaux pour voir si votre instance a été redémarrée. Pour plus d’informations, consultez Le planificateur se connecte à PCS AWS et Surveillance des instances AWS PCS à l'aide d'Amazon CloudWatch. L'exemple d'entrée de slurmctld journal suivant indique que l'instance a redémarré :

[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
Redémarrage à cause de l'application de correctifs

Un redémarrage est souvent nécessaire après l'application des correctifs. N'appliquez pas de correctifs directement à une EC2 instance faisant partie d'un groupe de nœuds de calcul AWS PCS. Si vous devez appliquer des correctifs à vos EC2 instances, vous devez appliquer vos correctifs à une Amazon Machine Image (AMI) mise à jour et mettre à jour vos groupes de nœuds de calcul pour utiliser l'AMI mise à jour. EC2 Les nouvelles instances lancées par AWS PCS pour ces groupes de nœuds de calcul utiliseront l'AMI mise à jour (patchée). Pour de plus amples informations, veuillez consulter Images Amazon Machine personnalisées (AMIs) pour AWS PC.