Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Acceso a un trabajo
El Job está atascado enCF
el estado consqueue
el comando
Esto podría deberse a un problema con el encendido de los nodos dinámicos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.
Ejecutar trabajos a gran escala y vernfsd: too many open connections, consider increasing
the number of threads in /var/log/messages
Con un sistema de archivos en red, cuando se alcanzan los límites de la red, el tiempo de espera de E/S también aumenta. Esto puede provocar bloqueos parciales, ya que la red se utiliza para escribir datos para las métricas de red y de E/S.
Con las instancias de quinta generación, utilizamos el controlador ENA para exponer los contadores de paquetes. Estos contadores cuentan los paquetes que se formanAWS cuando la red alcanza los límites de ancho de banda de la instancia. Puede comprobar estos contadores para ver si son mayores que 0. Si lo están, significa que has superado tus límites de ancho de banda. Puede ver estos contadores corriendoethtool -S eth0 | grep exceeded
.
Superar los límites de la red suele deberse a que se admiten demasiadas conexiones NFS. Esta es una de las primeras cosas que debes comprobar cuando alcanzas o superas los límites de la red.
Por ejemplo, el resultado siguiente muestra los paquetes descartados:
$
ethtool -S eth0 | grep exceeded
bw_in_allowance_exceeded: 38750610 bw_out_allowance_exceeded: 1165693 pps_allowance_exceeded: 103 conntrack_allowance_exceeded: 0 linklocal_allowance_exceeded: 0
Para evitar recibir este mensaje, considere cambiar el tipo de instancia del nodo principal por un tipo de instancia más eficiente. Considere la posibilidad de trasladar el almacenamiento de datos a sistemas de archivos de almacenamiento compartido que no se exporten como un recurso compartido de NFS, como Amazon EFS o Amazon FSx. Para obtener más información, consulteAlmacenamiento compartido las mejores prácticas
Ejecución de un trabajo de MPI
Habilitación del modo de depuración
Para habilitar el modo de depuración de OpenMPI, consulte ¿Qué controles tiene Open MPI que ayudan a la depuración
Para habilitar el modo de depuración de IntelMPI, consulte Otras variables de entorno
VerMPI_ERRORS_ARE_FATAL
yOPAL ERROR
en el resultado del trabajo
Estos códigos de error provienen de la capa MPI de la aplicación. Para obtener información sobre cómo obtener los registros de depuración de MPI de su aplicación, consulteHabilitación del modo de depuración.
Una posible causa de este error es que la aplicación se ha compilado para una implementación de MPI específica, como OpenMPI, y está intentando ejecutarla con una implementación de MPI diferente, como IntelMPI. Asegúrese de compilar y ejecutar la aplicación con la misma implementación de MPI.
Usompirun
con DNS administrado deshabilitado
En el caso de los clústeres creados con SlurmSettings/Dns/DisableManagedDnsy UseEc2Hostnames establecidos entrue, el DNS no resuelve el nombre delSlurm nodo. Slurmpuede iniciar los procesos de MPI cuandonodenames
no están habilitados y si el trabajo de MPI se ejecuta en unSlurm contexto. Recomendamos seguir las instrucciones de la Guía del usuario deSlurm MPI