Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
¿Has detectado errores en las inicializaciones de los nodos de cómputo
Ver en Node bootstrap error
clustermgtd.log
El problema está relacionado con la falla del arranque de los nodos de cómputo. Para obtener información sobre cómo depurar un problema relacionado con el modo protegido de un clúster, consulte. Cómo depurar el modo protegido
Si configuré reservas de capacidad (ODCR) bajo demanda o instancias reservadas zonales
ODCR que incluyen instancias que tienen varias interfaces de red, como P4d, P4de y Trainium (Trn) AWS
En el archivo de configuración del clúster, compruebe que HeadNode
se encuentre en una subred pública y que los nodos de procesamiento estén en una subred privada.
Los ODCR son ODCRS de destino
A Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
pesar de que ya lo tengo instalado, sigue las instrucciones que se dan /opt/slurm/etc/pcluster/run_instances_overrides.json
en Inicio de instancias con ODCR (reservas de capacidad bajo demanda)
Si utilizas las AWS ParallelCluster versiones 3.1.1 a 3.2.1 con ODCR específicos y también utilizas el archivo JSON de anulación de instancias ejecutadas, es posible que el archivo JSON no tenga el formato correcto. Es posible que aparezca un error enclustermgtd.log
, por ejemplo, el siguiente:
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
Comprueba que el formato del archivo JSON es correcto ejecutando lo siguiente:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Ver Found RunInstances parameters override.
clustermgtd.log
cuándo falló la creación del clúster o slurm_resume.log
cuándo falló la tarea de ejecución
Si utilizas instancias de ejecución que anulan el archivo JSON, comprueba que has establecido correctamente el nombre de la cola y el nombre de los recursos de cómputo en el /opt/slurm/etc/pcluster/run_instances_overrides.json
archivo.
Ver An error occurred (InsufficientInstanceCapacity)
slurm_resume.log
cuándo no puedo ejecutar un trabajo o clustermgtd.log
cuándo no puedo crear un clúster
Uso de PG-ODCR (grupo de ubicación ODCR)
Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Establezca el nombre del grupo de ubicación correspondiente en la configuración del clúster.
Uso de instancias reservadas
Si utiliza instancias reservadas zonales conPlacementGroup
/Enabled
to true
en la configuración del clúster, es posible que aparezca un error como el siguiente:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad insuficiente (ICE) al utilizar grupos de ubicación. Para comprobar este caso, inhabilite la configuración de PlacementGroup
grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.
Ver An error occurred (VcpuLimitExceeded)
slurm_resume.log
cuándo no puedo ejecutar un trabajo o cuándo no puedo crear un clúster clustermgtd.log
Compruebe los límites de vCPU de su cuenta para el tipo de instancia EC2 específico que esté utilizando. Si ve cero o menos vCPU de las que solicita, solicite un aumento de sus límites. Para obtener información acerca de cómo consultar los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2 para instancias de Linux.
Ver An error occurred (InsufficientInstanceCapacity)
slurm_resume.log
cuándo no puedo ejecutar un trabajo o cuándo no puedo crear un clúster clustermgtd.log
Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
Ver que los nodos están en DOWN
estado con Reason (Code:InsufficientInstanceCapacity)...
Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
¿Ver en cannot change locale (en_US.utf-8) because it has an invalid name
slurm_resume.log
Esto puede ocurrir si el proceso de yum
instalación no se ha realizado correctamente y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede producirse cuando un usuario finaliza el proceso de instalación.
Para verificar la causa, realice las siguientes acciones:
-
Ejecute
su - pcluster-admin
.El shell muestra un error, como,
cannot change locale...no such file or directory
. -
Ejecute
localedef --list
.Devuelve una lista vacía o no contiene la configuración regional predeterminada.
-
Marque el último
yum
comando conyum history
y.yum history info #ID
¿La última identificación tieneReturn-Code: Success
?Si el último identificador no lo tiene
Return-Code: Success
, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.
Para solucionar el problema, intenta volver a crear la configuración regional con. yum reinstall glibc-all-langpacks
Tras la reconstrucción, su - pcluster-admin
no muestra ningún error o advertencia si el problema se ha solucionado.
Ninguno de los escenarios anteriores se aplica a mi situación
Para solucionar problemas de inicialización de los nodos de procesamiento, consulte. Solución de problemas de inicialización de nodos
Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos
Para obtener asistencia adicional, consultaCompatibilidad adicional.