Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Intentando crear un clúster
Cuando utiliceAWS ParallelCluster la versión 3.5.0 y versiones posteriores para crear un clúster y la creación de un clúster haya fallado al--rollback-on-failure
configurarse comofalse
, utilice el comandopcluster describe-cluster CLI para obtener información sobre el estado y los errores. En este caso, lo esperadoclusterStatus
de lapcluster describe-cluster
salida esCREATE_FAILED
. Consulte lafailures
sección de la salida para encontrarfailureCode
yfailureReason
. A continuación, en la siguiente sección, busque la opción correspondientefailureCode
para obtener ayuda adicional sobre la solución de problemas. Para obtener más información, consulte pcluster describe-cluster.
En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los/var/log/chef-client.log
archivos/var/log/cfn-init.log
y. Para obtener más información sobreAWS ParallelCluster los registros y cómo verlos, consulteRegistros de claves para la depuración yRecuperación y conservación de registros.
Si no tiene unafailureCode
, vaya a laAWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para encontrar detalles adicionales sobre los errores.Status Reason
HeadNodeWaitCondition
Para obtener más información, consulte VerAWS CloudFormation eventos enCREATE_FAILED. Compruebe los/var/log/chef-client.log
archivos/var/log/cfn-init.log
y del nodo principal.
failureCode
es OnNodeConfiguredExecutionFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo ejecutar el script personalizado. -
¿Cómo resolverlo?
Consulte el
/var/log/cfn-init.log
archivo para obtener más información sobre el error y sobre cómo solucionar el problema en el script personalizado. Cerca del final de este registro, es posible que vea la información de ejecución relacionada con elOnNodeConfigured
script después delRunning command runpostinstall
mensaje.
failureCode
es OnNodeConfiguredDownloadFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado. -
¿Cómo resolverlo?
Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de scripts de arranque personalizados, consulteAcciones de arranque personalizadas.
Revisa el
/var/log/cfn-init.log
archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeConfigured
scripts, incluida la descarga, después delRunning command runpostinstall
mensaje.
failureCode
es OnNodeConfiguredFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeConfigured
de nodos principales de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y se necesita una investigación adicional. -
¿Cómo resolverlo?
Revisa el
/var/log/cfn-init.log
archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeConfigured
scripts después delRunning command runpostinstall
mensaje.
failureCode
es OnNodeStartExecutionFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeStart
de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo ejecutar el script personalizado. -
¿Cómo resolverlo?
Consulte el
/var/log/cfn-init.log
archivo para obtener más información sobre el error y sobre cómo solucionar el problema en el script personalizado. Cerca del final de este registro, es posible que vea la información de ejecución relacionada con elOnNodeStart
script después delRunning command runpreinstall
mensaje.
failureCode
es OnNodeStartDownloadFailure
-
¿Por qué falló?
Proporcionó un script personalizado en la sección
OnNodeStart
de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado. -
¿Cómo resolverlo?
Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de scripts de arranque personalizados, consulteAcciones de arranque personalizadas.
Revisa el
/var/log/cfn-init.log
archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeStart
scripts, incluida la descarga, después delRunning command runpreinstall
mensaje.
failureCode
es OnNodeStartFailure
-
¿Por qué falló?
Ha proporcionado un script personalizado en la sección
OnNodeStart
de nodos principales de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y se necesita una investigación adicional. -
¿Cómo resolverlo?
Revisa el
/var/log/cfn-init.log
archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeStart
scripts después delRunning command runpreinstall
mensaje.
failureCode
es EbsMountFailure
-
¿Por qué falló?
No se pudo montar el volumen de EBS definido en la configuración del clúster.
-
¿Cómo resolverlo?
Consulte el
/var/log/chef-client.log
archivo para ver los detalles del error.
failureCode
es EfsMountFailure
-
¿Por qué falló?
No se pudo montar el volumen de Amazon EFS definido en la configuración del clúster.
-
¿Cómo resolverlo?
Si ha definido un sistema de archivos de Amazon EFS existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage/EfsSettings/FileSystemId.
Consulte el
/var/log/chef-client.log
archivo para ver los detalles del error.
failureCode
es FsxMountFailure
-
¿Por qué falló?
No se pudo montar el sistema de archivos Amazon FSx definido en la configuración del clúster.
-
¿Cómo resolverlo?
Si ha definido un sistema de archivos Amazon FSx existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage/FsxLustreSettings/FileSystemId.
Consulte el
/var/log/chef-client.log
archivo para ver los detalles del error.
failureCode
es RaidMountFailure
-
¿Por qué falló?
No se pudieron montar los volúmenes RAID definidos en la configuración del clúster.
-
¿Cómo resolverlo?
Consulte el
/var/log/chef-client.log
archivo para ver los detalles del error.
failureCode
es AmiVersionMismatch
-
¿Por qué falló?
LaAWS ParallelCluster versión utilizada para crear la AMI personalizada es diferente de laAWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulte los detalles de la CloudFormation pila de clústeres y compruebe la
Status Reason
HeadNodeWaitCondition
para obtener detalles adicionales sobre lasAWS ParallelCluster versiones y la AMI. Para obtener más información, consulte VerAWS CloudFormation eventos enCREATE_FAILED. -
¿Cómo resolverlo?
Asegúrese de que laAWS ParallelCluster versión utilizada para crear la AMI personalizada sea la misma queAWS ParallelCluster se usó para configurar el clúster. Puede cambiar la versión de AMI personalizada o la versión de
pcluster
CLI para que sean iguales.
failureCode
es InvalidAmi
-
¿Por qué falló?
La AMI personalizada no es válida porque no se creó conAWS ParallelCluster.
-
¿Cómo resolverlo?
Utilice el
pcluster build-image
comando para crear una AMI haciendo que su AMI sea la imagen principal. Para obtener más información, consulte pcluster build-image.
failureCode
estáHeadNodeBootstrapFailure
confailureReason
No se pudo configurar el nodo principal.
-
¿Por qué falló?
No se puede determinar una causa inmediata y se necesita una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto se deba a un error al aprovisionar la flota de procesamiento estática.
-
¿Cómo resolverlo?
Consulte el
/var/log/chef-client.log.
archivo para ver los detalles del error.nota Si ve
RuntimeError
una excepciónCluster state has been set to PROTECTED mode due to failures detected in static node provisioning
, el clúster se encuentra en estado protegido. Para obtener más información, consulte Cómo depurar el modo protegido.
failureCode
estáHeadNodeBootstrapFailure
con el tiempo defailureReason
espera de creación de clústeres agotado.
-
¿Por qué falló?
De forma predeterminada, hay un límite de 30 minutos para completar la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error en la creación del clúster y se produce un error de tiempo de espera. La creación del clúster puede agotar el tiempo de espera por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a largos tiempos de espera para el aprovisionamiento de nodos de procesamiento. No se puede determinar una causa inmediata y se necesita una investigación adicional.
-
¿Cómo resolverlo?
Consulte los
/var/log/chef-client.log
archivos/var/log/cfn-init.log
y para ver los detalles del error. Para obtener más información sobreAWS ParallelCluster los registros y cómo obtenerlos, consulteRegistros de claves para la depuración yRecuperación y conservación de registros.Es posible que descubra lo siguiente en estos registros.
-
Viendo
Waiting for static fleet capacity provisioning
cerca del final delchef-client.log
Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.
-
La
OnNodeConfigured
visualización o el script del nodoOnNodeStart
principal no ha terminado al final delcfn-init.log
Esto indica que el script
OnNodeConfigured
oOnNodeStart
personalizado tardó mucho en ejecutarse y provocó un error de tiempo de espera. Consulte el script personalizado para ver si hay Si el script personalizado tarda mucho tiempo en ejecutarse, considere cambiar el límite de tiempo de espera añadiendo unaDevSettings
sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
No se pueden encontrar los registros o el nodo principal no se creó correctamente
Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre los errores.
-
failureCode
estáHeadNodeBootstrapFailure
confailureReason
No se pudo iniciar el nodo principal.
-
¿Por qué falló?
No se puede determinar una causa inmediata y se necesita una investigación adicional.
-
¿Cómo resolverlo?
Compruebe los
/var/log/chef-client.log
archivos/var/log/cfn-init.log
y.
failureCode
es ResourceCreationFailure
-
¿Por qué falló?
Se produjo un error al crear algunos recursos durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una política de IAM mal configurada.
-
¿Cómo resolverlo?
En la CloudFormation consola, consulte la pila de clústeres para comprobar si hay detalles adicionales sobre los errores de creación de recursos.
failureCode
es ClusterCreationFailure
-
¿Por qué falló?
No se puede determinar una causa inmediata y se necesita una investigación adicional.
-
¿Cómo resolverlo?
En la CloudFormation consola, consulte la pila de clústeres y compruebe la
Status Reason
HeadNodeWaitCondition
para encontrar detalles adicionales sobre el error.Compruebe los
/var/log/chef-client.log
archivos/var/log/cfn-init.log
y.
VerWaitCondition timed out...
en la CloudFormation pila
Para obtener más información, consulte failureCodeestáHeadNodeBootstrapFailure con el tiempo defailureReason espera de creación de clústeres agotado..
VerResource creation cancelled
en la CloudFormation pila
Para obtener más información, consulte failureCode es ResourceCreationFailure.
VerFailed to run cfn-init...
u otros errores en laAWS CloudFormation pila
Consulte/var/log/cfn-init.log
y/var/log/chef-client.log
para obtener detalles adicionales sobre el fallo.
Verchef-client.log
termina conINFO: Waiting for static fleet capacity provisioning
Esto está relacionado con el tiempo de espera de creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.
ViendoFailed to run preinstall or postinstall in cfn-init.log
Tiene unOnNodeStart
scriptOnNodeConfigured
or en laHeadNode
sección de configuración del clúster. El script no funciona correctamente. Consulte el/var/log/cfn-init.log
archivo para ver los detalles de los errores de script personalizados.
VerThis AMI was created with xxx, but is trying to be used with xxx...
en la CloudFormation pila
Para obtener más información, consulte failureCode es AmiVersionMismatch.
VerThis AMI was not baked by AWS ParallelCluster...
en la CloudFormation pila
Para obtener más información, consulte failureCode es InvalidAmi.
Elpcluster create-cluster
comando Seeing no se ejecuta localmente
Compruebe los detalles del error~/.parallelcluster/pcluster-cli.log
en su sistema de archivos local.
Soporte adicional
Siga las instrucciones de solución de problemas que aparecen enSolución de de.
Compruebe si su situación se describe en ProblemasGitHub conocidosAWS ParallelCluster en la sección Problemas conocidos
Para obtener asistencia adicional, consulteSoporte adicional.