Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo

Node bootstrap errorVedere dentro clustermgtd.log

Il problema è legato al mancato avvio dei nodi di calcolo. Per informazioni su come eseguire il debug di un problema relativo alla modalità protetta del cluster, vedere. Come eseguire il debug della modalità protetta

Ho configurato le prenotazioni di capacità su richiesta (ODCR) o le istanze riservate zonali

ODCR che includono istanze con più interfacce di rete, come P4d, P4de e Trainium (Trn) AWS

Nel file di configurazione del cluster, verifica che si trovi in una sottorete pubblica e che i nodi di HeadNode elaborazione si trovino in una sottorete privata.

Gli ODCR sono ODCRS mirati

Da vedere Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. anche se l'ho già fatto seguendo le istruzioni riportate /opt/slurm/etc/pcluster/run_instances_overrides.json in Avviare le istanze con ODCR (Prenotazioni di capacità on demand)

Se utilizzi le AWS ParallelCluster versioni da 3.1.1 a 3.2.1 con ODCR mirati e utilizzi anche il file Run Instances Override JSON, è possibile che il file JSON non sia formattato correttamente. Potresti visualizzare un errore, come il seguente: clustermgtd.log

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Verifica che il formato di file JSON sia corretto eseguendo quanto segue:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Verifica Found RunInstances parameters override.clustermgtd.log quando la creazione del cluster non è riuscita o slurm_resume.log quando l'esecuzione del processo non è riuscita

Se utilizzi il file run instances override JSON, verifica di aver impostato correttamente il nome della coda e il nome delle risorse di calcolo nel file. /opt/slurm/etc/pcluster/run_instances_overrides.json

An error occurred (InsufficientInstanceCapacity)Accetto slurm_resume.log quando non riesco a eseguire un processo o clustermgtd.log quando non riesco a creare un cluster

Utilizzo di PG-ODCR (Placement Group ODCR)

Quando si crea un ODCR con un gruppo di posizionamento associato, è necessario utilizzare lo stesso nome del gruppo di posizionamento nel file di configurazione. Imposta il nome del gruppo di posizionamento corrispondente nella configurazione del cluster.

Utilizzo di istanze riservate zonali

Se utilizzi istanze riservate zonali conPlacementGroup/Enabledto true nella configurazione del cluster, potresti visualizzare un errore, come il seguente:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

È possibile che ciò si verifichi perché le istanze riservate zonali non sono collocate nella stessa UC (o spine), il che può causare errori di capacità insufficiente (ICE) quando si utilizzano i gruppi di collocamento. È possibile verificare questo caso disabilitando l'impostazione PlacementGroup Group nella configurazione del cluster per determinare se il cluster può allocare le istanze.

An error occurred (VcpuLimitExceeded)Attivo slurm_resume.log quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster clustermgtd.log

Controlla i limiti di vCPU sul tuo account per il tipo di istanza EC2 specifico che stai utilizzando. Se vedi zero o meno vCPU di quelle richieste, richiedi un aumento dei limiti. Per informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le quote dei servizi Amazon EC2 nella Amazon EC2 User Guide.

An error occurred (InsufficientInstanceCapacity)Attivo slurm_resume.log quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster clustermgtd.log

Stai riscontrando un problema di capacità insufficiente. Segui https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ per risolvere il problema.

I nodi di visualizzazione sono in DOWN stato con Reason (Code:InsufficientInstanceCapacity)...

Stai riscontrando un problema di capacità insufficiente. Segui https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ per risolvere il problema. Per ulteriori informazioni sulla modalità AWS ParallelCluster di failover veloce con capacità insufficiente, vedere. Slurmfailover rapido di capacità insufficiente del cluster

Vedere dentro cannot change locale (en_US.utf-8) because it has an invalid nameslurm_resume.log

Ciò può verificarsi se il processo di yum installazione non è riuscito e le impostazioni locali sono state mantenute in uno stato incoerente. Ad esempio, ciò può verificarsi quando un utente termina il processo di installazione.

Per verificare la causa, intraprendi le seguenti azioni:
  • Esegui su - pcluster-admin.

    La shell mostra un errore, ad esempiocannot change locale...no such file or directory.

  • Esegui localedef --list.

    Restituisce una lista vuota o non contiene la localizzazione predefinita.

  • Controlla l'ultimo yum comando con yum history andyum history info #ID. L'ultimo ID haReturn-Code: Success?

    Se l'ultimo ID non è presenteReturn-Code: Success, gli script di post-installazione potrebbero non essere stati eseguiti correttamente.

Per risolvere il problema, prova a ricostruire la versione locale con. yum reinstall glibc-all-langpacks Dopo la ricostruzione, su - pcluster-admin non mostra alcun errore o avviso se il problema è stato risolto.

Nessuno degli scenari precedenti si applica alla mia situazione

Per risolvere i problemi di inizializzazione dei nodi di calcolo, consulta. Risoluzione dei problemi di inizializzazione dei nodi

Verifica se il tuo scenario è incluso nella sezione Problemi GitHub noti all'indirizzo on. AWS ParallelCluster GitHub

Per ulteriore assistenza, consultaSupporto aggiuntivo.