Sto cercando di creare un cluster - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Sto cercando di creare un cluster

Se si utilizza la AWS ParallelCluster versione 3.5.0 e successive per creare un cluster e la creazione di un cluster non è riuscita con --rollback-on-failure set tofalse, utilizzare il comando pcluster describe-cluster CLI per ottenere informazioni sullo stato e sull'errore. In questo caso, l'pcluster describe-clusteroutput previsto clusterStatus è. CREATE_FAILED Controlla la failures sezione dell'output per trovare la failureCode efailureReason. Quindi, nella sezione seguente, trova la corrispondenza failureCode per ulteriori informazioni sulla risoluzione dei problemi. Per ulteriori informazioni, consulta pcluster describe-cluster.

Nelle sezioni seguenti, ti consigliamo di controllare i log sul nodo principale, come i /var/log/chef-client.log file /var/log/cfn-init.log and. Per ulteriori informazioni sui AWS ParallelCluster log e su come visualizzarli, consulta Registri chiave per il debug e. Recupero e conservazione dei registri

Se non ne hai unofailureCode, accedi alla AWS CloudFormation console per visualizzare lo stack del cluster. Controlla la Status Reason presenza HeadNodeWaitCondition o gli errori su altre risorse per trovare ulteriori dettagli sugli errori. Per ulteriori informazioni, consulta Visualizza AWS CloudFormation gli eventi su CREATE_FAILED. Controlla i /var/log/chef-client.log file /var/log/cfn-init.log and sul nodo principale.

failureCode è OnNodeConfiguredExecutionFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeConfigured del nodo principale della configurazione per creare un cluster. Tuttavia, lo script personalizzato non è stato eseguito.

  • Come risolvere?

    Controlla il /var/log/cfn-init.log file per saperne di più sull'errore e su come risolvere il problema nello script personalizzato. Verso la fine di questo registro, potresti visualizzare le informazioni di esecuzione relative allo OnNodeConfigured script dopo il Running command runpostinstall messaggio.

failureCode è OnNodeConfiguredDownloadFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeConfigured del nodo principale della configurazione per creare un cluster. Tuttavia, non è stato possibile scaricare lo script personalizzato.

  • Come risolvere?

    Assicurati che l'URL sia valido e che l'accesso sia configurato correttamente. Per ulteriori informazioni sulla configurazione degli script di bootstrap personalizzati, consulta. Azioni bootstrap personalizzate

    Controllate il file. /var/log/cfn-init.log Verso la fine di questo registro, dopo il Running command runpostinstall messaggio è possibile che vengano visualizzate le informazioni sull'esecuzione relative all'elaborazione degli OnNodeConfigured script, incluso il download.

failureCode è OnNodeConfiguredFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeConfigured del nodo principale della configurazione per creare un cluster. Tuttavia, l'uso dello script personalizzato non è riuscito nella distribuzione del cluster. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.

  • Come risolvere?

    Controlla il /var/log/cfn-init.log file. Verso la fine di questo registro, è possibile che vengano visualizzate le informazioni di esecuzione relative all'elaborazione degli OnNodeConfigured script dopo il Running command runpostinstall messaggio.

failureCode è OnNodeStartExecutionFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeStart del nodo principale della configurazione per creare un cluster. Tuttavia, lo script personalizzato non è stato eseguito.

  • Come risolvere?

    Controlla il /var/log/cfn-init.log file per saperne di più sull'errore e su come risolvere il problema nello script personalizzato. Verso la fine di questo registro, potresti visualizzare le informazioni di esecuzione relative allo OnNodeStart script dopo il Running command runpreinstall messaggio.

failureCode è OnNodeStartDownloadFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeStart del nodo principale della configurazione per creare un cluster. Tuttavia, non è stato possibile scaricare lo script personalizzato.

  • Come risolvere?

    Assicurati che l'URL sia valido e che l'accesso sia configurato correttamente. Per ulteriori informazioni sulla configurazione degli script di bootstrap personalizzati, consulta. Azioni bootstrap personalizzate

    Controllate il file. /var/log/cfn-init.log Verso la fine di questo registro, dopo il Running command runpreinstall messaggio è possibile che vengano visualizzate le informazioni sull'esecuzione relative all'elaborazione degli OnNodeStart script, incluso il download.

failureCode è OnNodeStartFailure

  • Perché ha fallito?

    Hai fornito uno script personalizzato nella sezione OnNodeStart del nodo principale della configurazione per creare un cluster. Tuttavia, l'uso dello script personalizzato non è riuscito nella distribuzione del cluster. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.

  • Come risolvere?

    Controlla il /var/log/cfn-init.log file. Verso la fine di questo registro, è possibile che vengano visualizzate le informazioni di esecuzione relative all'elaborazione degli OnNodeStart script dopo il Running command runpreinstall messaggio.

failureCode è EbsMountFailure

  • Perché ha fallito?

    Il volume EBS definito nella configurazione del cluster non è stato montato.

  • Come risolvere?

    Controlla il /var/log/chef-client.log file per i dettagli sull'errore.

failureCode è EfsMountFailure

  • Perché ha fallito?

    Il volume Amazon EFS definito nella configurazione del cluster non è stato montato.

  • Come risolvere?

    Se hai definito un file system Amazon EFS esistente, assicurati che il traffico sia consentito tra il cluster e il file system. Per ulteriori informazioni, consulta SharedStorage/EfsSettings/FileSystemId.

    Controlla il /var/log/chef-client.log file per i dettagli sull'errore.

failureCode è FsxMountFailure

  • Perché ha fallito?

    Il file system Amazon FSx definito nella configurazione del cluster non è riuscito a montarlo.

  • Come risolvere?

    Se hai definito un file system Amazon FSx esistente, assicurati che il traffico sia consentito tra il cluster e il file system. Per ulteriori informazioni, consulta SharedStorage/FsxLustreSettings/FileSystemId.

    Controlla il /var/log/chef-client.log file per i dettagli sull'errore.

failureCode è RaidMountFailure

  • Perché ha fallito?

    I volumi RAID definiti nella configurazione del cluster non sono stati montati.

  • Come risolvere?

    Controlla il /var/log/chef-client.log file per i dettagli sull'errore.

failureCode è AmiVersionMismatch

  • Perché ha fallito?

    La AWS ParallelCluster versione utilizzata per creare l'AMI personalizzata è diversa dalla AWS ParallelCluster versione utilizzata per configurare il cluster. Nella CloudFormation console, visualizza i dettagli CloudFormation dello stack del cluster e seleziona la casella Status Reason HeadNodeWaitCondition per ottenere ulteriori dettagli sulle AWS ParallelCluster versioni e sull'AMI. Per ulteriori informazioni, consulta Visualizza AWS CloudFormation gli eventi su CREATE_FAILED.

  • Come risolvere?

    Assicurati che la AWS ParallelCluster versione utilizzata per creare l'AMI personalizzata sia la stessa AWS ParallelCluster utilizzata per configurare il cluster. Puoi modificare la versione AMI personalizzata o la versione pcluster CLI per renderle uguali.

failureCode è InvalidAmi

  • Perché ha fallito?

    L'AMI personalizzata non è valida perché non è stata creata utilizzando AWS ParallelCluster.

  • Come risolvere?

    Usa il pcluster build-image comando per creare un AMI rendendolo l'immagine principale. Per ulteriori informazioni, consulta pcluster build-image.

failureCodeè HeadNodeBootstrapFailure con failureReason Failed to setup the head node.

  • Perché ha fallito?

    Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini. Ad esempio, è possibile che il cluster sia in stato protetto e ciò potrebbe essere causato da un mancato provisioning della flotta di elaborazione statica.

  • Come risolvere?

    Controlla il /var/log/chef-client.log. file per i dettagli sull'errore.

    Nota

    Se vedi RuntimeError un'eccezioneCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, il cluster è in stato protetto. Per ulteriori informazioni, consulta Come eseguire il debug della modalità protetta.

failureCodeè scaduto HeadNodeBootstrapFailure il timeout per la creazione del failureReason cluster.

  • Perché ha fallito?

    Per impostazione predefinita, è previsto un limite di tempo di 30 minuti per il completamento della creazione del cluster. Se la creazione del cluster non viene completata entro questo intervallo di tempo, la creazione del cluster fallisce con un errore di timeout. La creazione del cluster può scadere per diversi motivi. Ad esempio, gli errori di timeout possono essere causati da un errore di creazione del nodo principale, da un problema di rete, da script personalizzati che impiegano troppo tempo per essere eseguiti nel nodo principale, da un errore in uno script personalizzato eseguito nei nodi di calcolo o da lunghi tempi di attesa per il provisioning dei nodi di calcolo. Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.

  • Come risolvere?

    Controlla i /var/log/chef-client.log file /var/log/cfn-init.log and per i dettagli sull'errore. Per ulteriori informazioni sui AWS ParallelCluster log e su come ottenerli, consulta Registri chiave per il debug eRecupero e conservazione dei registri.

    Potresti scoprire quanto segue in questi registri.

    • Vedendo Waiting for static fleet capacity provisioning verso la fine del chef-client.log

      Ciò indica che la creazione del cluster è scaduta in attesa dell'accensione dei nodi statici. Per ulteriori informazioni, consulta Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo.

    • Lo script di OnNodeStart visualizzazione OnNodeConfigured o avvio del nodo non è terminato alla fine del cfn-init.log

      Ciò indica che l'esecuzione dello script OnNodeConfigured o dello script OnNodeStart personalizzato ha impiegato molto tempo e ha causato un errore di timeout. Verifica che lo script personalizzato non presenti problemi che potrebbero causarne l'esecuzione prolungata. Se lo script personalizzato richiede molto tempo per essere eseguito, valuta la possibilità di modificare il limite di timeout aggiungendo una DevSettings sezione al file di configurazione del cluster, come mostrato nell'esempio seguente:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • Impossibile trovare i log o il nodo principale non è stato creato correttamente

      È possibile che il nodo principale non sia stato creato correttamente e che i log non possano essere trovati. Nella CloudFormation console, visualizza i dettagli dello stack del cluster per verificare ulteriori dettagli sugli errori.

failureCodeè HeadNodeBootstrapFailure con failureReason Failed to bootstrap the head node.

  • Perché ha fallito?

    Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.

  • Come risolvere?

    Controlla i /var/log/chef-client.log file /var/log/cfn-init.log e.

failureCode è ResourceCreationFailure

  • Perché ha fallito?

    La creazione di alcune risorse non è riuscita durante il processo di creazione del cluster. L'errore può verificarsi per vari motivi. Ad esempio, gli errori di creazione delle risorse possono essere causati da problemi di capacità o da una policy IAM configurata in modo errato.

  • Come risolvere?

    Nella CloudFormation console, visualizza lo stack del cluster per verificare ulteriori dettagli sugli errori di creazione delle risorse.

failureCode è ClusterCreationFailure

  • Perché ha fallito?

    Non è possibile determinare una causa immediata e sono necessarie ulteriori indagini.

  • Come risolvere?

    Nella CloudFormation console, visualizza lo stack del cluster e controlla la casella Status Reason per HeadNodeWaitCondition trovare ulteriori dettagli sull'errore.

    Controlla i /var/log/chef-client.log file /var/log/cfn-init.log e.

Vedere WaitCondition timed out... in CloudFormation pila

Per ulteriori informazioni, consulta failureCodeè scaduto HeadNodeBootstrapFailure il timeout per la creazione del failureReason cluster..

Vedere Resource creation cancelled in pila CloudFormation

Per ulteriori informazioni, consulta failureCode è ResourceCreationFailure.

Visualizzazione Failed to run cfn-init... o altri errori nello stack AWS CloudFormation

Controlla /var/log/cfn-init.log e /var/log/chef-client.log per ulteriori dettagli sull'errore.

La visione chef-client.log finisce con INFO: Waiting for static fleet capacity provisioning

Ciò è correlato al timeout di creazione del cluster in attesa dell'accensione dei nodi statici. Per ulteriori informazioni, consulta Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo.

Vedendo Failed to run preinstall or postinstall in cfn-init.log

Hai uno OnNodeStart script OnNodeConfigured or nella HeadNode sezione di configurazione del cluster. Lo script non funziona correttamente. Controlla il /var/log/cfn-init.log file per i dettagli sugli errori degli script personalizzati.

Visualizzazione This AMI was created with xxx, but is trying to be used with xxx... in CloudFormation pila

Per ulteriori informazioni, consulta failureCode è AmiVersionMismatch.

Vedere This AMI was not baked by AWS ParallelCluster... in pila CloudFormation

Per ulteriori informazioni, consulta failureCode è InvalidAmi.

Il pcluster create-cluster comando Seeing non viene eseguito localmente

~/.parallelcluster/pcluster-cli.logControllate il file system locale per i dettagli sull'errore.

Supporto aggiuntivo

Segui le istruzioni per la risoluzione dei problemi riportate inRisoluzione dei problemi di distribuzione dei cluster.

Verifica se il tuo scenario è coperto nella sezione Problemi GitHub noti AWS ParallelCluster all'indirizzo GitHub.

Per ulteriore assistenza, consultaSupporto aggiuntivo.