Visualización de errores en las inicializaciones de los nodos de computación - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Visualización de errores en las inicializaciones de los nodos de computación

Visualización de Node bootstrap error en clustermgtd.log

El problema está relacionado con la falla del arranque de los nodos de cómputo. Para obtener información sobre cómo depurar un problema relacionado con el modo protegido de un clúster, consulte. Cómo depurar el modo protegido

Si configuré reservas de capacidad (ODCR) bajo demanda o instancias reservadas zonales

ODCR que incluyen instancias que tienen varias interfaces de red, como P4d, P4de y Trainium (Trn) AWS

En el archivo de configuración del clúster, compruebe que HeadNode se encuentre en una subred pública y que los nodos de procesamiento estén en una subred privada.

Los ODCR son ODCRS de destino

Visualización de Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. a pesar de que ya he implementado /opt/slurm/etc/pcluster/run_instances_overrides.json siguiendo las instrucciones que dadas en Lance instancias con reservas de capacidad bajo demanda (ODCR)

Si utilizas AWS ParallelCluster las versiones 3.1.1 a 3.2.1 con los ODCR de destino y también utilizas el archivo JSON de anulación de instancias ejecutadas, es posible que el archivo JSON no tenga el formato correcto. Es posible que aparezca un error enclustermgtd.log, por ejemplo, el siguiente:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Compruebe que el formato del archivo JSON es correcto ejecutando lo siguiente:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Visualización de Found RunInstances parameters override. en clustermgtd.log cuando falló la creación del clúster o en slurm_resume.log cuando falló la tarea de ejecución

Si utiliza instancias de ejecución que anulan el archivo JSON, compruebe que ha establecido correctamente el nombre de la cola y el nombre de los recursos de cómputo en el archivo /opt/slurm/etc/pcluster/run_instances_overrides.json.

Visualización de An error occurred (InsufficientInstanceCapacity) en slurm_resume.log cuando no puedo ejecutar un trabajo o en clustermgtd.log cuándo no puedo crear un clúster

Uso de PG-ODCR (grupo de ubicación ODCR)

Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Establezca el nombre del grupo de ubicación correspondiente en la configuración del clúster.

Uso de instancias reservadas

Si utiliza instancias reservadas zonales conPlacementGroup/Enabledto true en la configuración del clúster, es posible que aparezca un error como el siguiente:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad insuficiente (ICE) al utilizar grupos de ubicación. Para comprobar este caso, inhabilite la configuración de PlacementGroup grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.

Visualización de An error occurred (VcpuLimitExceeded) en slurm_resume.log cuando no puedo ejecutar un trabajo o en clustermgtd.log cuando no puedo crear un clúster

Compruebe los límites de vCPU de su cuenta para el tipo de instancia de Amazon EC2 específico que esté utilizando. Si ve cero o menos vCPU de las que solicita, solicite un aumento de sus límites. Para obtener información sobre cómo ver los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2.

Visualización de An error occurred (InsufficientInstanceCapacity) en slurm_resume.log cuando no puedo ejecutar un trabajo o en clustermgtd.log cuando no puedo crear un clúster

Tiene un problema de capacidad insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema.

Visualización de los nodos que están en estado DOWN con Reason (Code:InsufficientInstanceCapacity)...

Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema. Para obtener más información sobre AWS ParallelCluster el modo de conmutación por error rápida y con capacidad insuficiente, consulte. Conmutación por error rápida de capacidad insuficiente en el clúster de Slurm

Visualización de cannot change locale (en_US.utf-8) because it has an invalid name en slurm_resume.log

Esto puede ocurrir si el proceso de yum instalación no se ha realizado correctamente y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede producirse cuando un usuario finaliza el proceso de instalación.

Para verificar la causa, realice las siguientes acciones:
  • Ejecute su - pcluster-admin.

    El intérprete de comandos muestra un error, como cannot change locale...no such file or directory.

  • Ejecute localedef --list.

    Devuelve una lista vacía o no contiene la configuración regional predeterminada.

  • Marque el último yum comando con yum history y. yum history info #ID ¿La última identificación tieneReturn-Code: Success?

    Si el último identificador no lo tiene Return-Code: Success, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.

Para solucionar el problema, intenta volver a crear la configuración regional con. yum reinstall glibc-all-langpacks Tras la reconstrucción, su - pcluster-admin no muestra ningún error o advertencia si el problema se ha solucionado.

Ninguno de los escenarios anteriores se aplica a mi situación

Para solucionar problemas de inicialización de los nodos de procesamiento, consulte. Solución de problemas de inicialización de nodos

Compruebe si su situación está incluida en la sección Problemas GitHub conocidos, en la sección correspondiente. AWS ParallelCluster GitHub

Para obtener asistencia adicional, consulte Compatibilidad adicional.