Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Solución de problemas en clústeres conAWS Batch integración
Esta sección es relevante para los clústeres con integraciónAWS Batch de planificadores.
Temas
Problemas con el nodo principal
Puede solucionar los problemas de configuración del nodo principal de la misma manera que con unSlurm clúster (excepto en el caso de registrosSlurm específicos). Para obtener más información acerca de estosNodo principal
Problemas de informática
AWS Batchgestiona los aspectos de escalado y computación de sus servicios. Si encuentra problemas relacionados con la informática, consulte la documentaciónAWS Batch de solución de problemas para obtener ayuda.
Fallos
Si se produce un error en un trabajo, puede ejecutar elawsbout comando para recuperar el resultado del trabajo. También puede ejecutar elawsbstat comando para obtener un enlace a los registros de trabajos almacenados en Amazon CloudWatch.
Error de tiempo de espera de Connect en la URL del terminal
Si las tareas parallel de varios nodos fallan y se produce un errorConnect timeout on endpoint URL
:
-
En el registro
awsbout
de salida, compruebe que el trabajo sea de varios nodos en parallel a la salida:Detected 3/3 compute nodes. Waiting for all compute nodes to start.
-
Compruebe si la subred de nodos de cómputos es pública.
Los trabajos parallel con varios nodos no admiten el uso de subredes públicas cuando se utilizanAWS Batch inAWS ParallelCluster. Use una subred privada para sus nodos de cómputos y trabajos. Para obtener más información, consulte Consideraciones sobre el entorno informático en la Guía delAWS Batch usuario. Para configurar una subred privada para los nodos de procesamiento, consulteAWS ParallelClusterconAWS Batch planificador.