Risoluzione dei problemi nei cluster con integrazione AWS Batch - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Risoluzione dei problemi nei cluster con integrazione AWS Batch

Questa sezione è pertinente ai cluster con integrazione di AWS Batch scheduler.

Problemi relativi al nodo principale

È possibile risolvere i problemi di configurazione del nodo principale allo stesso modo di un Slurm cluster (ad eccezione dei log Slurm specifici). Per ulteriori informazioni su questi problemi, consulta Nodo principale.

Problemi di calcolo

AWS Batch gestisce gli aspetti di scalabilità e calcolo dei tuoi servizi. Se riscontri problemi relativi all'elaborazione, consulta la documentazione AWS Batch sulla risoluzione dei problemi per ricevere assistenza.

Job fallimenti

Se un processo fallisce, è possibile eseguire il awsbout comando per recuperare l'output del processo. Puoi anche eseguire il awsbstat comando per ottenere un collegamento ai log dei lavori archiviati da Amazon CloudWatch.

Errore Connect timeout sull'URL dell'endpoint

Se i lavori paralleli multinodo falliscono e restituiscono un errore: Connect timeout on endpoint URL

  • Nel log awsbout di output, verificate che il job sia parallelo a più nodi rispetto all'output: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Verifica se la sottorete dei nodi di calcolo è pubblica.

I lavori paralleli multinodo non supportano l'uso di sottoreti pubbliche quando si utilizza in. AWS Batch AWS ParallelCluster Usa una sottorete privata per i nodi e i lavori di elaborazione. Per ulteriori informazioni, consulta Considerazioni sull'ambiente di calcolo nella Guida per l'utente.AWS Batch Per configurare una sottorete privata per i nodi di calcolo, consulta. AWS ParallelClusterconAWS Batch scheduler