Acceso a un trabajo - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Acceso a un trabajo

El Job está atascado enCF el estado consqueue el comando

Esto podría deberse a un problema con el encendido de los nodos dinámicos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.

Ejecutar trabajos a gran escala y vernfsd: too many open connections, consider increasing the number of threads in /var/log/messages

Con un sistema de archivos en red, cuando se alcanzan los límites de la red, el tiempo de espera de E/S también aumenta. Esto puede provocar bloqueos parciales, ya que la red se utiliza para escribir datos para las métricas de red y de E/S.

Con las instancias de quinta generación, utilizamos el controlador ENA para exponer los contadores de paquetes. Estos contadores cuentan los paquetes que se formanAWS cuando la red alcanza los límites de ancho de banda de la instancia. Puede comprobar estos contadores para ver si son mayores que 0. Si lo están, significa que has superado tus límites de ancho de banda. Puede ver estos contadores corriendoethtool -S eth0 | grep exceeded.

Superar los límites de la red suele deberse a que se admiten demasiadas conexiones NFS. Esta es una de las primeras cosas que debes comprobar cuando alcanzas o superas los límites de la red.

Por ejemplo, el resultado siguiente muestra los paquetes descartados:

$ ethtool -S eth0 | grep exceeded bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0

Para evitar recibir este mensaje, considere cambiar el tipo de instancia del nodo principal por un tipo de instancia más eficiente. Considere la posibilidad de trasladar el almacenamiento de datos a sistemas de archivos de almacenamiento compartido que no se exporten como un recurso compartido de NFS, como Amazon EFS o Amazon FSx. Para obtener más información, consulteAlmacenamiento compartido las mejores prácticas en laAWS ParallelCluster wiki de GitHub.

Ejecución de un trabajo de MPI

Habilitación del modo de depuración

Para habilitar el modo de depuración de OpenMPI, consulte ¿Qué controles tiene Open MPI que ayudan a la depuración?

Para habilitar el modo de depuración de IntelMPI, consulte Otras variables de entorno.

VerMPI_ERRORS_ARE_FATAL yOPAL ERROR en el resultado del trabajo

Estos códigos de error provienen de la capa MPI de la aplicación. Para obtener información sobre cómo obtener los registros de depuración de MPI de su aplicación, consulteHabilitación del modo de depuración.

Una posible causa de este error es que la aplicación se ha compilado para una implementación de MPI específica, como OpenMPI, y está intentando ejecutarla con una implementación de MPI diferente, como IntelMPI. Asegúrese de compilar y ejecutar la aplicación con la misma implementación de MPI.

Usompirun con DNS administrado deshabilitado

En el caso de los clústeres creados con SlurmSettings/Dns/DisableManagedDnsy UseEc2Hostnames establecidos entrue, el DNS no resuelve el nombre delSlurm nodo. Slurmpuede iniciar los procesos de MPI cuandonodenames no están habilitados y si el trabajo de MPI se ejecuta en unSlurm contexto. Recomendamos seguir las instrucciones de la Guía del usuario deSlurm MPI para ejecutar trabajos de MPI conSlurm.