AWS PCS 中的 EC2 实例在重启后终止并被替换 - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

AWS PCS 中的 EC2 实例在重启后终止并被替换

问题概述

计算节点组中的 EC2 实例重启后, AWS PCS 会自动终止并替换该实例。

为什么会发生这种情况

AWS PCS 不支持实例重启。如果 EC2 实例重启, AWS PCS 会认为该实例运行状况不佳并替换它。如果 AWS PCS 持续终止并替换您的实例,则可能是因为您的实例启动后某些东西会重新启动。一些示例包括通过 EC2 实例上的自动化重启(例如修补后自动重启)、 EC2 实例外部的自动化(例如网络管理应用程序)、其他 AWS 服务(例如 AWS Systems Manager)或人员手动重启。

操作

您可以查看您的slurmctldslurmd日志,以查看您的实例是否已重启。有关更多信息,请参阅计划程序在 PCS 中 AWS 登录使用亚马逊监控 AWS PCS 实例 CloudWatch。以下示例slurmctld日志条目表示实例已重启:

[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
因为正在修补而重新启动

应用补丁后,通常需要重新启动。不要将补丁直接应用于属于 AWS PCS 计算节点组的 EC2 实例。如果您必须修补 EC2 实例,则应将补丁应用于更新的亚马逊系统映像 (AMI),并更新您的计算节点组以使用更新后的 AMI。 AWS PCS 为这些计算节点组启动的新 EC2 实例将使用更新的(已修补的)AMI。有关更多信息,请参阅 适用于 AWS PCS 的自定义 Amazon 机器映像 (AMIs)