Solución de problemas en clústeres conAWS Batch integración - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas en clústeres conAWS Batch integración

Esta sección es relevante para los clústeres con integraciónAWS Batch de planificadores.

Problemas con el nodo principal

Puede solucionar los problemas de configuración del nodo principal de la misma manera que con unSlurm clúster (excepto en el caso de registrosSlurm específicos). Para obtener más información acerca de estosNodo principal

Problemas de informática

AWS Batchgestiona los aspectos de escalado y computación de sus servicios. Si encuentra problemas relacionados con la informática, consulte la documentaciónAWS Batch de solución de problemas para obtener ayuda.

Fallos

Si se produce un error en un trabajo, puede ejecutar elawsbout comando para recuperar el resultado del trabajo. También puede ejecutar elawsbstat comando para obtener un enlace a los registros de trabajos almacenados en Amazon CloudWatch.

Error de tiempo de espera de Connect en la URL del terminal

Si las tareas parallel de varios nodos fallan y se produce un errorConnect timeout on endpoint URL:

  • En el registroawsbout de salida, compruebe que el trabajo sea de varios nodos en parallel a la salida:Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Compruebe si la subred de nodos de cómputos es pública.

Los trabajos parallel con varios nodos no admiten el uso de subredes públicas cuando se utilizanAWS Batch inAWS ParallelCluster. Use una subred privada para sus nodos de cómputos y trabajos. Para obtener más información, consulte Consideraciones sobre el entorno informático en la Guía delAWS Batch usuario. Para configurar una subred privada para los nodos de procesamiento, consulteAWS ParallelClusterconAWS Batch planificador.