재부팅 후 AWS PCS의 EC2 인스턴스가 종료되고 교체됨 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

재부팅 후 AWS PCS의 EC2 인스턴스가 종료되고 교체됨

문제 개요

컴퓨팅 노드 그룹의 EC2 인스턴스가 재부팅되면 AWS PCS는 인스턴스를 자동으로 종료하고 교체합니다.

이 문제가 발생하는 이유

AWS PCS는 인스턴스 재부팅을 지원하지 않습니다. EC2 인스턴스가 재부팅되면 AWS PCS는 인스턴스를 비정상으로 간주하고 교체합니다. AWS PCS가 지속적으로 인스턴스를 종료하고 교체하는 경우 인스턴스가 시작된 후 재부팅하기 때문일 수 있습니다. 예를 들어 EC2 인스턴스에서 자동화를 통한 재부팅(패칭 후 자동 재부팅 등), EC2 인스턴스 외부의 자동화(네트워크 관리 애플리케이션 등), 다른 AWS 서비스(예: AWS Systems Manager) 또는 사람이 수동으로 재부팅하는 경우가 있습니다.

수행할 작업

slurmctld 또는 slurmd 로그를 확인하여 인스턴스가 재부팅되었는지 확인할 수 있습니다. 자세한 내용은 AWS PCS의 스케줄러 로그Amazon CloudWatch를 사용하여 AWS PCS 인스턴스 모니터링 단원을 참조하세요. 다음 예제 slurmctld 로그 항목은 인스턴스가 재부팅되었음을 나타냅니다.

[2024-09-12T06:42:50.393+00:00] validate_node_specs: Node Login-1 unexpectedly rebooted boot_time=1726123354 last response=1726123285
패치 적용으로 인한 재부팅

패치를 적용한 후 재부팅이 필요한 경우가 많습니다. 패치를 AWS PCS 컴퓨팅 노드 그룹의 일부인 EC2 인스턴스에 직접 적용하지 마세요. EC2 인스턴스를 패치해야 하는 경우 업데이트된 Amazon Machine Image(AMI)에 패치를 적용하고 업데이트된 AMI를 사용하도록 컴퓨팅 노드 그룹을 업데이트해야 합니다. 해당 컴퓨팅 노드 그룹에 대해 AWS PCS가 시작하는 새 EC2 인스턴스는 업데이트된(패치된) AMI를 사용합니다. 자세한 내용은 AWS PCS용 사용자 지정 Amazon 머신 이미지(AMIs) 단원을 참조하십시오.