Risoluzione dei problemi di un timeout di aggiornamento del cluster quando non è in esecuzione cfn-hup - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi di un timeout di aggiornamento del cluster quando non è in esecuzione cfn-hup

L'cfn-huphelper è un demone che rileva le modifiche nei metadati delle risorse ed esegue azioni specificate dall'utente quando viene rilevata una modifica. In questo modo è possibile effettuare aggiornamenti di configurazione sulle istanze Amazon EC2 in esecuzione tramite l'UpdateStackazione API.

Attualmente il cfn-hup demone viene lanciato da. supervisord Ma dopo il lancio, il cfn-hup processo viene rimosso dal controllo. supervisord Se il cfn-hup demone viene ucciso da un attore esterno, non viene riavviato automaticamente. Se cfn-hup non è in esecuzione, durante un aggiornamento del cluster, lo CloudFormation stack avvia il processo di aggiornamento come previsto, ma la procedura di aggiornamento non viene attivata sul nodo principale e lo stack alla fine entra in timeout. Dai log del cluster/var/log/chef-client, puoi vedere che la ricetta di aggiornamento non viene mai richiamata.

Controlla e riavvia cfn-hup in caso di guasti

  1. Sul nodo principale, controlla se cfn-hup è in esecuzione:

    $ ps aux | grep cfn-hup
  2. Controlla cfn-hup il registro /var/log/cfn-hup.log e /var/log/supervisord.log il nodo principale.

  3. Se cfn-hup non è in esecuzione, prova a riavviarlo eseguendo:

    $ sudo /opt/parallelcluster/pyenv/versions/cookbook_virtualenv/bin/supervisorctl start cfn-hup