cfn-hup이 실행 중이 아닐 때의 클러스터 업데이트 제한 시간 문제 해결 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

cfn-hup이 실행 중이 아닐 때의 클러스터 업데이트 제한 시간 문제 해결

cfn-hup 헬퍼는 리소스 메타데이터의 변경 사항을 감지하고 변경 사항이 감지되면 사용자 지정 작업을 실행하는 대몬(daemon)입니다. 이것이 UpdateStack API 작업을 통해 실행 중인 Amazon EC2 인스턴스에 대한 구성 업데이트를 수행하는 방법입니다.

현재 cfn-hup 대몬은 supervisord에 의해 실행됩니다. 하지만 실행 후에는 cfn-hup 프로세스가 supervisord 제어에서 분리됩니다. 외부 행위자가 cfn-hup 대몬을 종료할 경우 대몬은 자동으로 다시 시작되지 않습니다. 가 cfn-hup 실행되지 않는 경우 클러스터 업데이트 중에 CloudFormation 스택은 예상대로 업데이트 프로세스를 시작하지만 헤드 노드에서 업데이트 절차가 활성화되지 않아 결국 스택이 타임아웃됩니다. 클러스터 로그 /var/log/chef-client에서 업데이트 레시피가 호출되지 않는 것을 확인할 수 있습니다.

장애 발생 시 cfn-hup를 확인하고 다시 시작하세요.

  1. 헤드 노드에서 cfn-hup가 실행 중인지 확인합니다.

    $ ps aux | grep cfn-hup
  2. 헤드 노드에서 cfn-hup 로그 /var/log/cfn-hup.log/var/log/supervisord.log을 확인하세요.

  3. cfn-hup가 실행 중이 아니면 다음을 실행하여 다시 시작해 보세요.

    $ sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup