Intentando crear un clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Intentando crear un clúster

Cuando utiliceAWS ParallelCluster la versión 3.5.0 y versiones posteriores para crear un clúster y la creación de un clúster haya fallado al--rollback-on-failure configurarse comofalse, utilice el comandopcluster describe-cluster CLI para obtener información sobre el estado y los errores. En este caso, lo esperadoclusterStatus de lapcluster describe-cluster salida esCREATE_FAILED. Consulte lafailures sección de la salida para encontrarfailureCode yfailureReason. A continuación, en la siguiente sección, busque la opción correspondientefailureCode para obtener ayuda adicional sobre la solución de problemas. Para obtener más información, consulte pcluster describe-cluster.

En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los/var/log/chef-client.log archivos/var/log/cfn-init.log y. Para obtener más información sobreAWS ParallelCluster los registros y cómo verlos, consulteRegistros de claves para la depuración yRecuperación y conservación de registros.

Si no tiene unafailureCode, vaya a laAWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para encontrar detalles adicionales sobre los errores.Status ReasonHeadNodeWaitCondition Para obtener más información, consulte VerAWS CloudFormation eventos enCREATE_FAILED. Compruebe los/var/log/chef-client.log archivos/var/log/cfn-init.log y del nodo principal.

failureCode es OnNodeConfiguredExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la secciónOnNodeConfigured de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo ejecutar el script personalizado.

  • ¿Cómo resolverlo?

    Consulte el/var/log/cfn-init.log archivo para obtener más información sobre el error y sobre cómo solucionar el problema en el script personalizado. Cerca del final de este registro, es posible que vea la información de ejecución relacionada con elOnNodeConfigured script después delRunning command runpostinstall mensaje.

failureCode es OnNodeConfiguredDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la secciónOnNodeConfigured de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Revisa el/var/log/cfn-init.log archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeConfigured scripts, incluida la descarga, después delRunning command runpostinstall mensaje.

failureCode es OnNodeConfiguredFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la secciónOnNodeConfigured de nodos principales de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y se necesita una investigación adicional.

  • ¿Cómo resolverlo?

    Revisa el/var/log/cfn-init.log archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeConfigured scripts después delRunning command runpostinstall mensaje.

failureCode es OnNodeStartExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la secciónOnNodeStart de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo ejecutar el script personalizado.

  • ¿Cómo resolverlo?

    Consulte el/var/log/cfn-init.log archivo para obtener más información sobre el error y sobre cómo solucionar el problema en el script personalizado. Cerca del final de este registro, es posible que vea la información de ejecución relacionada con elOnNodeStart script después delRunning command runpreinstall mensaje.

failureCode es OnNodeStartDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la secciónOnNodeStart de nodos principales de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Revisa el/var/log/cfn-init.log archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeStart scripts, incluida la descarga, después delRunning command runpreinstall mensaje.

failureCode es OnNodeStartFailure

  • ¿Por qué falló?

    Ha proporcionado un script personalizado en la secciónOnNodeStart de nodos principales de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y se necesita una investigación adicional.

  • ¿Cómo resolverlo?

    Revisa el/var/log/cfn-init.log archivo. Cerca del final de este registro, es posible que aparezca información de ejecución relacionada con el procesamiento deOnNodeStart scripts después delRunning command runpreinstall mensaje.

failureCode es EbsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de EBS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Consulte el/var/log/chef-client.log archivo para ver los detalles del error.

failureCode es EfsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de Amazon EFS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos de Amazon EFS existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage/EfsSettings/FileSystemId.

    Consulte el/var/log/chef-client.log archivo para ver los detalles del error.

failureCode es FsxMountFailure

  • ¿Por qué falló?

    No se pudo montar el sistema de archivos Amazon FSx definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos Amazon FSx existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage/FsxLustreSettings/FileSystemId.

    Consulte el/var/log/chef-client.log archivo para ver los detalles del error.

failureCode es RaidMountFailure

  • ¿Por qué falló?

    No se pudieron montar los volúmenes RAID definidos en la configuración del clúster.

  • ¿Cómo resolverlo?

    Consulte el/var/log/chef-client.log archivo para ver los detalles del error.

failureCode es AmiVersionMismatch

  • ¿Por qué falló?

    LaAWS ParallelCluster versión utilizada para crear la AMI personalizada es diferente de laAWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulte los detalles de la CloudFormation pila de clústeres y compruebe laStatus ReasonHeadNodeWaitCondition para obtener detalles adicionales sobre lasAWS ParallelCluster versiones y la AMI. Para obtener más información, consulte VerAWS CloudFormation eventos enCREATE_FAILED.

  • ¿Cómo resolverlo?

    Asegúrese de que laAWS ParallelCluster versión utilizada para crear la AMI personalizada sea la misma queAWS ParallelCluster se usó para configurar el clúster. Puede cambiar la versión de AMI personalizada o la versión depcluster CLI para que sean iguales.

failureCode es InvalidAmi

  • ¿Por qué falló?

    La AMI personalizada no es válida porque no se creó conAWS ParallelCluster.

  • ¿Cómo resolverlo?

    Utilice elpcluster build-image comando para crear una AMI haciendo que su AMI sea la imagen principal. Para obtener más información, consulte pcluster build-image.

failureCodeestáHeadNodeBootstrapFailure confailureReason No se pudo configurar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y se necesita una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto se deba a un error al aprovisionar la flota de procesamiento estática.

  • ¿Cómo resolverlo?

    Consulte el/var/log/chef-client.log. archivo para ver los detalles del error.

    nota

    Si veRuntimeError una excepciónCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, el clúster se encuentra en estado protegido. Para obtener más información, consulte Cómo depurar el modo protegido.

failureCodeestáHeadNodeBootstrapFailure con el tiempo defailureReason espera de creación de clústeres agotado.

  • ¿Por qué falló?

    De forma predeterminada, hay un límite de 30 minutos para completar la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error en la creación del clúster y se produce un error de tiempo de espera. La creación del clúster puede agotar el tiempo de espera por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a largos tiempos de espera para el aprovisionamiento de nodos de procesamiento. No se puede determinar una causa inmediata y se necesita una investigación adicional.

  • ¿Cómo resolverlo?

    Consulte los/var/log/chef-client.log archivos/var/log/cfn-init.log y para ver los detalles del error. Para obtener más información sobreAWS ParallelCluster los registros y cómo obtenerlos, consulteRegistros de claves para la depuración yRecuperación y conservación de registros.

    Es posible que descubra lo siguiente en estos registros.

    • ViendoWaiting for static fleet capacity provisioning cerca del final delchef-client.log

      Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.

    • LaOnNodeConfigured visualización o el script del nodoOnNodeStart principal no ha terminado al final delcfn-init.log

      Esto indica que el scriptOnNodeConfigured oOnNodeStart personalizado tardó mucho en ejecutarse y provocó un error de tiempo de espera. Consulte el script personalizado para ver si hay Si el script personalizado tarda mucho tiempo en ejecutarse, considere cambiar el límite de tiempo de espera añadiendo unaDevSettings sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • No se pueden encontrar los registros o el nodo principal no se creó correctamente

      Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre los errores.

failureCodeestáHeadNodeBootstrapFailure confailureReason No se pudo iniciar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y se necesita una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los/var/log/chef-client.log archivos/var/log/cfn-init.log y.

failureCode es ResourceCreationFailure

  • ¿Por qué falló?

    Se produjo un error al crear algunos recursos durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una política de IAM mal configurada.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, consulte la pila de clústeres para comprobar si hay detalles adicionales sobre los errores de creación de recursos.

failureCode es ClusterCreationFailure

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y se necesita una investigación adicional.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, consulte la pila de clústeres y compruebe laStatus ReasonHeadNodeWaitCondition para encontrar detalles adicionales sobre el error.

    Compruebe los/var/log/chef-client.log archivos/var/log/cfn-init.log y.

VerWaitCondition timed out... en la CloudFormation pila

Para obtener más información, consulte failureCodeestáHeadNodeBootstrapFailure con el tiempo defailureReason espera de creación de clústeres agotado..

VerResource creation cancelled en la CloudFormation pila

Para obtener más información, consulte failureCode es ResourceCreationFailure.

VerFailed to run cfn-init... u otros errores en laAWS CloudFormation pila

Consulte/var/log/cfn-init.log y/var/log/chef-client.log para obtener detalles adicionales sobre el fallo.

Verchef-client.log termina conINFO: Waiting for static fleet capacity provisioning

Esto está relacionado con el tiempo de espera de creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para obtener más información, consulte Ver errores en las inicializaciones de nodos de cómputos.

ViendoFailed to run preinstall or postinstall in cfn-init.log

Tiene unOnNodeStart scriptOnNodeConfigured or en laHeadNode sección de configuración del clúster. El script no funciona correctamente. Consulte el/var/log/cfn-init.log archivo para ver los detalles de los errores de script personalizados.

VerThis AMI was created with xxx, but is trying to be used with xxx... en la CloudFormation pila

Para obtener más información, consulte failureCode es AmiVersionMismatch.

VerThis AMI was not baked by AWS ParallelCluster... en la CloudFormation pila

Para obtener más información, consulte failureCode es InvalidAmi.

Elpcluster create-cluster comando Seeing no se ejecuta localmente

Compruebe los detalles del error~/.parallelcluster/pcluster-cli.log en su sistema de archivos local.

Soporte adicional

Siga las instrucciones de solución de problemas que aparecen enSolución de de.

Compruebe si su situación se describe en ProblemasGitHub conocidosAWS ParallelCluster en la sección Problemas conocidos GitHub.

Para obtener asistencia adicional, consulteSoporte adicional.