Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Visualización de errores en las inicializaciones de los nodos de computación
Visualización de Node bootstrap error
en clustermgtd.log
El problema está relacionado con la falla del arranque de los nodos de cómputo. Para obtener información sobre cómo depurar un problema relacionado con el modo protegido de un clúster, consulte. Cómo depurar el modo protegido
Si configuré reservas de capacidad (ODCR) bajo demanda o instancias reservadas zonales
ODCR que incluyen instancias que tienen varias interfaces de red, como P4d, P4de y Trainium (Trn) AWS
En el archivo de configuración del clúster, compruebe que HeadNode
se encuentre en una subred pública y que los nodos de procesamiento estén en una subred privada.
Los ODCR son ODCRS de destino
Visualización de Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
a pesar de que ya he implementado /opt/slurm/etc/pcluster/run_instances_overrides.json
siguiendo las instrucciones que dadas en Lance instancias con reservas de capacidad bajo demanda (ODCR)
Si utilizas AWS ParallelCluster las versiones 3.1.1 a 3.2.1 con los ODCR de destino y también utilizas el archivo JSON de anulación de instancias ejecutadas, es posible que el archivo JSON no tenga el formato correcto. Es posible que aparezca un error enclustermgtd.log
, por ejemplo, el siguiente:
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
Compruebe que el formato del archivo JSON es correcto ejecutando lo siguiente:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Visualización de Found RunInstances parameters override.
en clustermgtd.log
cuando falló la creación del clúster o en slurm_resume.log
cuando falló la tarea de ejecución
Si utiliza instancias de ejecución que anulan el archivo JSON, compruebe que ha establecido correctamente el nombre de la cola y el nombre de los recursos de cómputo en el archivo /opt/slurm/etc/pcluster/run_instances_overrides.json
.
Visualización de An error occurred (InsufficientInstanceCapacity)
en slurm_resume.log
cuando no puedo ejecutar un trabajo o en clustermgtd.log
cuándo no puedo crear un clúster
Uso de PG-ODCR (grupo de ubicación ODCR)
Al crear un ODCR con un grupo de ubicación asociado, se debe utilizar el mismo nombre de grupo de ubicación en el archivo de configuración. Establezca el nombre del grupo de ubicación correspondiente en la configuración del clúster.
Uso de instancias reservadas
Si utiliza instancias reservadas zonales conPlacementGroup
/Enabled
to true
en la configuración del clúster, es posible que aparezca un error como el siguiente:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
Es posible que esto se deba a que las instancias reservadas zonales no están ubicadas en la misma UC (o columna vertebral), lo que puede provocar errores de capacidad insuficiente (ICE) al utilizar grupos de ubicación. Para comprobar este caso, inhabilite la configuración de PlacementGroup
grupo en la configuración del clúster para determinar si el clúster puede asignar las instancias.
Visualización de An error occurred (VcpuLimitExceeded)
en slurm_resume.log
cuando no puedo ejecutar un trabajo o en clustermgtd.log
cuando no puedo crear un clúster
Compruebe los límites de vCPU de su cuenta para el tipo de instancia de Amazon EC2 específico que esté utilizando. Si ve cero o menos vCPU de las que solicita, solicite un aumento de sus límites. Para obtener información sobre cómo ver los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2.
Visualización de An error occurred (InsufficientInstanceCapacity)
en slurm_resume.log
cuando no puedo ejecutar un trabajo o en clustermgtd.log
cuando no puedo crear un clúster
Tiene un problema de capacidad insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
Visualización de los nodos que están en estado DOWN
con Reason (Code:InsufficientInstanceCapacity)...
Tiene un problema de capacidad insuficiente. Sigue https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
Visualización de cannot change locale (en_US.utf-8) because it has an invalid name
en slurm_resume.log
Esto puede ocurrir si el proceso de yum
instalación no se ha realizado correctamente y ha dejado la configuración regional en un estado incoherente. Por ejemplo, esto puede producirse cuando un usuario finaliza el proceso de instalación.
Para verificar la causa, realice las siguientes acciones:
-
Ejecute
su - pcluster-admin
.El intérprete de comandos muestra un error, como
cannot change locale...no such file or directory
. -
Ejecute
localedef --list
.Devuelve una lista vacía o no contiene la configuración regional predeterminada.
-
Marque el último
yum
comando conyum history
y.yum history info #ID
¿La última identificación tieneReturn-Code: Success
?Si el último identificador no lo tiene
Return-Code: Success
, es posible que los scripts posteriores a la instalación no se hayan ejecutado correctamente.
Para solucionar el problema, intenta volver a crear la configuración regional con. yum reinstall glibc-all-langpacks
Tras la reconstrucción, su - pcluster-admin
no muestra ningún error o advertencia si el problema se ha solucionado.
Ninguno de los escenarios anteriores se aplica a mi situación
Para solucionar problemas de inicialización de los nodos de procesamiento, consulte. Solución de problemas de inicialización de nodos
Compruebe si su situación está incluida en la sección Problemas GitHub conocidos
Para obtener asistencia adicional, consulte Compatibilidad adicional.