疑難排解cfn-hup未執行時的叢集更新逾時 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

疑難排解cfn-hup未執行時的叢集更新逾時

cfn-hupHelper 是一種精靈,可偵測資源中繼資料的變更,並在偵測到變更時執行使用者指定的動作。這是您透過 UpdateStack API 動作在執行中的 Amazon EC2 執行個體上進行組態更新的方式。

目前cfn-hup守護程式是由supervisord. 但是啟動後,該cfn-hup過程將與supervisord控制分離。如果cfn-hup惡魔被外部演員殺死,它不會自動重新啟動。如果cfn-hup未執行,則在叢集更新期間, CloudFormation 堆疊會如預期般啟動更新程序,但不會在頭節點上啟動更新程序,且堆疊最終會進入逾時狀態。從群集日誌中/var/log/chef-client,您可以看到從未調用更新方案。

檢查並cfn-hup在發生故障時重新啟動

  1. 在頭節點上,檢查cfn-hup是否正在運行:

    $ ps aux | grep cfn-hup
  2. 檢查cfn-hup日誌/var/log/cfn-hup.log和頭節點/var/log/supervisord.log上。

  3. 如果cfn-hup沒有運行,請嘗試通過運行重新啟動它:

    $ sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup