Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Visualizzazione di errori nelle inizializzazioni dei nodi di calcolo
Node bootstrap error
Vedere dentro clustermgtd.log
Il problema è legato al mancato avvio dei nodi di calcolo. Per informazioni su come eseguire il debug di un problema relativo alla modalità protetta del cluster, vedere. Come eseguire il debug della modalità protetta
Ho configurato le prenotazioni di capacità su richiesta (ODCR) o le istanze riservate zonali
ODCR che includono istanze con più interfacce di rete, come P4d, P4de e Trainium (Trn) AWS
Nel file di configurazione del cluster, verifica che si trovi in una sottorete pubblica e che i nodi di HeadNode
elaborazione si trovino in una sottorete privata.
Gli ODCR sono ODCRS mirati
Da vedere Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
anche se l'ho già fatto seguendo le istruzioni riportate /opt/slurm/etc/pcluster/run_instances_overrides.json
in Avviare le istanze con ODCR (Prenotazioni di capacità on demand)
Se utilizzi le AWS ParallelCluster versioni da 3.1.1 a 3.2.1 con ODCR mirati e utilizzi anche il file Run Instances Override JSON, è possibile che il file JSON non sia formattato correttamente. Potresti visualizzare un errore, come il seguente: clustermgtd.log
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
Verifica che il formato di file JSON sia corretto eseguendo quanto segue:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Verifica Found RunInstances parameters override.
clustermgtd.log
quando la creazione del cluster non è riuscita o slurm_resume.log
quando l'esecuzione del processo non è riuscita
Se utilizzi il file run instances override JSON, verifica di aver impostato correttamente il nome della coda e il nome delle risorse di calcolo nel file. /opt/slurm/etc/pcluster/run_instances_overrides.json
An error occurred (InsufficientInstanceCapacity)
Accetto slurm_resume.log
quando non riesco a eseguire un processo o clustermgtd.log
quando non riesco a creare un cluster
Utilizzo di PG-ODCR (Placement Group ODCR)
Quando si crea un ODCR con un gruppo di posizionamento associato, è necessario utilizzare lo stesso nome del gruppo di posizionamento nel file di configurazione. Imposta il nome del gruppo di posizionamento corrispondente nella configurazione del cluster.
Utilizzo di istanze riservate zonali
Se utilizzi istanze riservate zonali conPlacementGroup
/Enabled
to true
nella configurazione del cluster, potresti visualizzare un errore, come il seguente:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
È possibile che ciò si verifichi perché le istanze riservate zonali non sono collocate nella stessa UC (o spine), il che può causare errori di capacità insufficiente (ICE) quando si utilizzano i gruppi di collocamento. È possibile verificare questo caso disabilitando l'impostazione PlacementGroup
Group nella configurazione del cluster per determinare se il cluster può allocare le istanze.
An error occurred (VcpuLimitExceeded)
Attivo slurm_resume.log
quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster clustermgtd.log
Controlla i limiti di vCPU sul tuo account per il tipo di istanza EC2 specifico che stai utilizzando. Se vedi zero o meno vCPU di quelle richieste, richiedi un aumento dei limiti. Per informazioni su come visualizzare i limiti attuali e richiederne di nuovi, consulta le quote dei servizi Amazon EC2 nella Amazon EC2 User Guide.
An error occurred (InsufficientInstanceCapacity)
Attivo slurm_resume.log
quando non riesco a eseguire un processo o attivo quando non riesco a creare un cluster clustermgtd.log
Stai riscontrando un problema di capacità insufficiente. Segui https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
I nodi di visualizzazione sono in DOWN
stato con Reason (Code:InsufficientInstanceCapacity)...
Stai riscontrando un problema di capacità insufficiente. Segui https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
Vedere dentro cannot change locale (en_US.utf-8) because it has an invalid name
slurm_resume.log
Ciò può verificarsi se il processo di yum
installazione non è riuscito e le impostazioni locali sono state mantenute in uno stato incoerente. Ad esempio, ciò può verificarsi quando un utente termina il processo di installazione.
Per verificare la causa, intraprendi le seguenti azioni:
-
Esegui
su - pcluster-admin
.La shell mostra un errore, ad esempio
cannot change locale...no such file or directory
. -
Esegui
localedef --list
.Restituisce una lista vuota o non contiene la localizzazione predefinita.
-
Controlla l'ultimo
yum
comando conyum history
andyum history info #ID
. L'ultimo ID haReturn-Code: Success
?Se l'ultimo ID non è presente
Return-Code: Success
, gli script di post-installazione potrebbero non essere stati eseguiti correttamente.
Per risolvere il problema, prova a ricostruire la versione locale con. yum reinstall glibc-all-langpacks
Dopo la ricostruzione, su - pcluster-admin
non mostra alcun errore o avviso se il problema è stato risolto.
Nessuno degli scenari precedenti si applica alla mia situazione
Per risolvere i problemi di inizializzazione dei nodi di calcolo, consulta. Risoluzione dei problemi di inizializzazione dei nodi
Verifica se il tuo scenario è incluso nella sezione Problemi GitHub noti
Per ulteriore assistenza, consultaSupporto aggiuntivo.