本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS PCS 中的 EC2 執行個體會在重新啟動後終止和取代
問題概觀
重新啟動運算節點群組中的 EC2 執行個體後, AWS PCS 會自動終止並取代執行個體。
為什麼會發生這種情況
AWS PCS 不支援執行個體重新啟動。如果重新啟動 EC2 執行個體, AWS PCS 會將執行個體視為運作狀態不佳,並加以取代。如果 AWS PCS 持續終止並取代您的執行個體,這可能是因為執行個體啟動後,有些項目會重新啟動您的執行個體。一些範例包括透過 EC2 執行個體上的自動化重新開機 (例如修補後的自動重新開機)、EC2 執行個體外部的自動化 (例如網路管理應用程式)、其他服務 AWS (例如 AWS Systems Manager),或人員手動重新開機。
處理方式
您可以檢查 slurmctld
或 slurmd
日誌,查看您的執行個體是否已重新啟動。如需詳細資訊,請參閱 AWS PCS 中的排程器日誌 和 使用 Amazon CloudWatch 監控 AWS PCS 執行個體。下列範例slurmctld
日誌項目表示執行個體已重新啟動:
[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
由於修補而重新啟動
套用修補程式後,通常需要重新啟動。請勿將修補程式直接套用至屬於 AWS PCS 運算節點群組的 EC2 執行個體。如果您必須修補 EC2 執行個體,您應該將修補程式套用至更新的 Amazon Machine Image (AMI),並更新運算節點群組以使用更新的 AMI。 AWS PCS 為這些運算節點群組啟動的新 EC2 執行個體將使用更新的 (修補) AMI。如需詳細資訊,請參閱AWS PCS 的自訂 Amazon Machine Image AMIs)。