Ver errores en las inicializaciones de nodos de cómputos - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ver errores en las inicializaciones de nodos de cómputos

ViendoNode bootstrap error enclustermgtd.log

El problema está relacionado con que los nodos de cómputos no pueden arrancar. Para obtener información sobre cómo solucionar un problema del modo protegido de clúster, consulteCómo depurar el modo protegido.

He configurado reservas de capacidad bajo demanda (ODCR) o instancias reservadas zonales

ODCR que incluyen instancias que tienen múltiples interfaces de red, como P4d, P4de yAWS Trainium (Trn)

En el archivo de configuración del clúster, compruebe queHeadNode se encuentra en una subred pública y que los nodos de procesamiento están en una subred privada.

Los ODCRs son ODCRS objetivo

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.Viendo que ya lo he/opt/slurm/etc/pcluster/run_instances_overrides.json hecho siguiendo las instrucciones que se dan enInicie instancias con ODCR (reservas de capacidad bajo demanda)

Si utilizas lasAWS ParallelCluster versiones 3.1.1 a 3.2.1 con ODCRs de destino y también utilizas el archivo JSON de anulación de instancias de ejecución, es posible que el archivo JSON no tenga el formato correcto. Puede aparecer un error enclustermgtd.log, por ejemplo, el siguiente:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Para comprobar que el formato de archivo JSON es correcto, ejecute lo siguiente:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Verclustermgtd.log cuándo seFound RunInstances parameters override. produjo un error en la creación del clúster oslurm_resume.log cuando se produjo un error en la ejecución del trabajo

Si utiliza instancias de ejecución que anulan el archivo JSON, compruebe que ha configurado correctamente el nombre de la cola y el nombre de los recursos informáticos en el/opt/slurm/etc/pcluster/run_instances_overrides.json archivo.

VerAn error occurred (InsufficientInstanceCapacity)slurm_resume.log cuando no puedo ejecutar un trabajo oclustermgtd.log cuando no puedo crear un clúster

Uso de PG-ODCR (Grupo de colocación ODCR)

Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Defina el nombre del grupo de ubicación correspondiente en la configuración del clúster.

Uso de instancias reservadas de zona

Si utilizas instancias reservadas zonales conPlacementGroup/Enabledtotrue en la configuración del clúster, es posible que veas un error, como el siguiente:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad (ICE) insuficientes al utilizar grupos de ubicación. Para comprobar este caso, desactive la configuración dePlacementGroup grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.

VerAn error occurred (VcpuLimitExceeded)slurm_resume.log cuando no puedo ejecutar un trabajo, o cuando no puedo crear un clústerclustermgtd.log

Compruebe los límites de vCPU de su cuenta para el tipo de instancia de EC2 específico que esté utilizando. Si ve cero o menos vCPUs de las que solicita, solicite un aumento de sus límites. Para obtener información acerca de cómo ver los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2 para instancias Linux.

VerAn error occurred (InsufficientInstanceCapacity)slurm_resume.log cuando no puedo ejecutar un trabajo, o cuando no puedo crear un clústerclustermgtd.log

Tienes un problema de capacidad insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema.

Los nodos visores están enDOWN estado conReason (Code:InsufficientInstanceCapacity)...

Tienes un problema de capacidad insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar el problema. Para obtener más información sobreAWS ParallelCluster el modo de conmutación por error de capacidad insuficiente y rápida, consulteSlurmconmutación por error rápida e insuficiente de capacidad del clúster.

Viendocannot change locale (en_US.utf-8) because it has an invalid name enslurm_resume.log

Esto puede ocurrir si el proceso deyum instalación no ha tenido éxito y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede ocurrir cuando un usuario finaliza el proceso de instalación.

Para comprobar la causa, realice las siguientes acciones:
  • Ejecute su - pcluster-admin.

    La cáscara muestra un error, por ejemplo,cannot change locale...no such file or directory.

  • Ejecute localedef --list.

    Devuelve una lista vacía o no contiene la configuración regional predeterminada.

  • Compruebe el últimoyum comando conyum history yyum history info #ID. ¿Tiene el último carné de identidadReturn-Code: Success?

    Si el último ID no lo tieneReturn-Code: Success, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.

Para solucionar el problema, intenta reconstruir la configuración regional conyum reinstall glibc-all-langpacks. Tras la reconstrucción,su - pcluster-admin no muestra ningún error ni advertencia si el problema está solucionado.

Ninguno de los escenarios anteriores se aplica a mi situación

Para solucionar problemas de inicialización de nodos de procesamiento, consulteSolución de problemas de inicialización de nodos.

Compruebe si su situación se describe en ProblemasGitHub conocidosAWS ParallelCluster en la sección Problemas conocidos GitHub.

Para obtener asistencia adicional, consulteSoporte adicional.