¿Has detectado errores en las inicializaciones de los nodos de cómputo - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

¿Has detectado errores en las inicializaciones de los nodos de cómputo

Ver en Node bootstrap errorclustermgtd.log

El problema está relacionado con la falla del arranque de los nodos de cómputo. Para obtener información sobre cómo depurar un problema relacionado con el modo protegido de un clúster, consulte. Cómo depurar el modo protegido

Si configuré reservas de capacidad (ODCR) bajo demanda o instancias reservadas zonales

ODCR que incluyen instancias que tienen varias interfaces de red, como P4d, P4de y Trainium (Trn) AWS

En el archivo de configuración del clúster, compruebe que HeadNode se encuentre en una subred pública y que los nodos de procesamiento estén en una subred privada.

Los ODCR son ODCRS de destino

A Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. pesar de que ya lo tengo instalado, sigue las instrucciones que se dan /opt/slurm/etc/pcluster/run_instances_overrides.json en Inicio de instancias con ODCR (reservas de capacidad bajo demanda)

Si utilizas las AWS ParallelCluster versiones 3.1.1 a 3.2.1 con ODCR específicos y también utilizas el archivo JSON de anulación de instancias ejecutadas, es posible que el archivo JSON no tenga el formato correcto. Es posible que aparezca un error enclustermgtd.log, por ejemplo, el siguiente:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Comprueba que el formato del archivo JSON es correcto ejecutando lo siguiente:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Ver Found RunInstances parameters override.clustermgtd.log cuándo falló la creación del clúster o slurm_resume.log cuándo falló la tarea de ejecución

Si utilizas instancias de ejecución que anulan el archivo JSON, comprueba que has establecido correctamente el nombre de la cola y el nombre de los recursos de cómputo en el /opt/slurm/etc/pcluster/run_instances_overrides.json archivo.

Ver An error occurred (InsufficientInstanceCapacity)slurm_resume.log cuándo no puedo ejecutar un trabajo o clustermgtd.log cuándo no puedo crear un clúster

Uso de PG-ODCR (grupo de ubicación ODCR)

Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Establezca el nombre del grupo de ubicación correspondiente en la configuración del clúster.

Uso de instancias reservadas

Si utiliza instancias reservadas zonales conPlacementGroup/Enabledto true en la configuración del clúster, es posible que aparezca un error como el siguiente:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad insuficiente (ICE) al utilizar grupos de ubicación. Para comprobar este caso, inhabilite la configuración de PlacementGroup grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.

Ver An error occurred (VcpuLimitExceeded)slurm_resume.log cuándo no puedo ejecutar un trabajo o cuándo no puedo crear un clúster clustermgtd.log

Compruebe los límites de vCPU de su cuenta para el tipo de instancia EC2 específico que esté utilizando. Si ve cero o menos vCPU de las que solicita, solicite un aumento de sus límites. Para obtener información acerca de cómo consultar los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2 para instancias de Linux.

Ver An error occurred (InsufficientInstanceCapacity)slurm_resume.log cuándo no puedo ejecutar un trabajo o cuándo no puedo crear un clúster clustermgtd.log

Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema.

Ver que los nodos están en DOWN estado con Reason (Code:InsufficientInstanceCapacity)...

Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema. Para obtener más información sobre AWS ParallelCluster el modo de conmutación por error rápida y con capacidad insuficiente, consulte. Conmutación por error rápida de capacidad insuficiente en el clúster de Slurm

¿Ver en cannot change locale (en_US.utf-8) because it has an invalid nameslurm_resume.log

Esto puede ocurrir si el proceso de yum instalación no se ha realizado correctamente y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede producirse cuando un usuario finaliza el proceso de instalación.

Para verificar la causa, realice las siguientes acciones:
  • Ejecute su - pcluster-admin.

    El shell muestra un error, como,cannot change locale...no such file or directory.

  • Ejecute localedef --list.

    Devuelve una lista vacía o no contiene la configuración regional predeterminada.

  • Marque el último yum comando con yum history y. yum history info #ID ¿La última identificación tieneReturn-Code: Success?

    Si el último identificador no lo tieneReturn-Code: Success, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.

Para solucionar el problema, intenta volver a crear la configuración regional con. yum reinstall glibc-all-langpacks Tras la reconstrucción, su - pcluster-admin no muestra ningún error o advertencia si el problema se ha solucionado.

Ninguno de los escenarios anteriores se aplica a mi situación

Para solucionar problemas de inicialización de los nodos de procesamiento, consulte. Solución de problemas de inicialización de nodos

Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos, en la AWS ParallelCluster sección correspondiente. GitHub

Para obtener asistencia adicional, consultaCompatibilidad adicional.