Solución de problemas en clústeres con AWS Batch integración - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas en clústeres con AWS Batch integración

Esta sección es relevante para los clústeres con integración de AWS Batch planificadores.

Problemas con el nodo principal

Puede solucionar los problemas de configuración del nodo principal de la misma manera que con un Slurm clúster (excepto en el caso de registros Slurm específicos). Para obtener más información sobre estos problemas, consulte Nodo principal.

Problemas informáticos

AWS Batchgestiona los aspectos de escalado y computación de sus servicios. Si tiene problemas relacionados con la informática, consulte la documentación AWS Batch de solución de problemas para obtener ayuda.

Errores en los trabajos

Si se produce un error en un trabajo, puede ejecutar el awsbout comando para recuperar el resultado del trabajo. También puedes ejecutar el awsbstat comando para obtener un enlace a los registros de trabajos almacenados por Amazon CloudWatch.

Error de tiempo de espera de conexión en la URL del punto final

Si los trabajos paralelos de varios nodos fallan y se produce un error: Connect timeout on endpoint URL

  • En el registro awsbout de salida, compruebe que el trabajo sea de varios nodos en paralelo a la salida: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Compruebe si la subred de los nodos de procesamiento es pública.

Los trabajos paralelos de varios nodos no admiten el uso de subredes públicas cuando se utilizan AWS Batch in. AWS ParallelCluster Usa una subred privada para tus tareas y nodos de cómputo. Para obtener más información, consulte Entornos informáticos en la Guía del usuario de AWS Batch. Para configurar una subred privada para los nodos de procesamiento, consulte. AWS ParallelCluster con el programador AWS Batch