Intentando crear un clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Intentando crear un clúster

Si utiliza la AWS ParallelCluster versión 3.5.0 y versiones posteriores para crear un clúster y se produce un error en la creación de un clúster con el --rollback-on-failure valor establecido enfalse, utilice el comando pcluster describe-cluster CLI para obtener información sobre el estado y el error. En este caso, lo que se espera clusterStatus del pcluster describe-cluster resultado esCREATE_FAILED. Compruebe la failures sección de la salida para encontrar el failureCode yfailureReason. Luego, en la siguiente sección, busque la solución adecuada failureCode para obtener ayuda adicional sobre la solución de problemas. Para obtener más información, consulte pcluster describe-cluster.

En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los /var/log/chef-client.log archivos /var/log/cfn-init.log and. Para obtener más información sobre AWS ParallelCluster los registros y cómo verlos, consulte Registros clave para la depuración yRecuperación y conservación de registros.

Si no tiene unofailureCode, vaya a la AWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para obtener información adicional sobre los errores. Status Reason HeadNodeWaitCondition Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED. Compruebe los /var/log/chef-client.log archivos /var/log/cfn-init.log y del nodo principal.

failureCode es OnNodeConfiguredExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.

  • ¿Cómo resolverlo?

    Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeConfigured script después del Running command runpostinstall mensaje.

failureCode es OnNodeConfiguredDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpostinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeConfigured scripts, incluida la descarga.

failureCode es OnNodeConfiguredFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeConfigured scripts después del Running command runpostinstall mensaje.

failureCode es OnNodeStartExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.

  • ¿Cómo resolverlo?

    Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeStart script después del Running command runpreinstall mensaje.

failureCode es OnNodeStartDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpreinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeStart scripts, incluida la descarga.

failureCode es OnNodeStartFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeStart scripts después del Running command runpreinstall mensaje.

failureCode es EbsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de EBS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

failureCode es EfsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de Amazon EFS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos Amazon EFS existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. EfsSettings FileSystemId.

    Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

failureCode es FsxMountFailure

  • ¿Por qué falló?

    No se pudo montar el sistema de archivos Amazon FSx definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos Amazon FSx existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. FsxLustreSettings FileSystemId.

    Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

failureCode es RaidMountFailure

  • ¿Por qué falló?

    No se pudieron montar los volúmenes RAID definidos en la configuración del clúster.

  • ¿Cómo resolverlo?

    Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

failureCode es AmiVersionMismatch

  • ¿Por qué falló?

    La AWS ParallelCluster versión utilizada para crear la AMI personalizada es diferente de la AWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulte los detalles de la CloudFormation Status Reason pila de clústeres y compruebe si HeadNodeWaitCondition desea obtener información adicional sobre las AWS ParallelCluster versiones y la AMI. Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED.

  • ¿Cómo resolverlo?

    Asegúrese de que la AWS ParallelCluster versión utilizada para crear la AMI personalizada sea la misma AWS ParallelCluster que se utilizó para configurar el clúster. Puede cambiar la versión de la AMI personalizada o la versión de la pcluster CLI para que sean iguales.

failureCode es InvalidAmi

  • ¿Por qué falló?

    La AMI personalizada no es válida porque no se creó con AWS ParallelCluster.

  • ¿Cómo resolverlo?

    Use el pcluster build-image comando para crear una AMI haciendo que su AMI sea la imagen principal. Para obtener más información, consulte pcluster build-image.

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo configurar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto podría deberse a un fallo en el aprovisionamiento de la flota de computación estática.

  • ¿Cómo resolverlo?

    Consulte el archivo /var/log/chef-client.log. para conocer los detalles del error.

    nota

    Si ve la excepción de RuntimeError Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning, el clúster está en estado protegido. Para obtener más información, consulte Cómo depurar el modo protegido.

failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster.

  • ¿Por qué falló?

    De forma predeterminada, hay un límite de 30 minutos para que se complete la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error de tiempo de espera. La creación del clúster puede agotarse por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a tiempos de espera prolongados para el aprovisionamiento del nodo de procesamiento. No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Consulte los archivos /var/log/cfn-init.log y /var/log/chef-client.log para conocer los detalles del error. Para obtener más información sobre los registros de AWS ParallelCluster y cómo obtenerlos, consulte Registros clave para la depuración y Recuperación y conservación de registros.

    Puede que descubra lo siguiente en estos registros.

    • Visualización de Waiting for static fleet capacity provisioning cerca del final del chef-client.log

      Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.

    • La visualización del script del nodo principal de OnNodeConfigured o OnNodeStart no ha finalizado al final del cfn-init.log

      Esto indica que el script OnNodeConfigured o el script OnNodeStart personalizado tardaron mucho en ejecutarse y provocaron un error de tiempo de espera. Compruebe si su script personalizado tiene problemas que puedan provocar que se ejecute durante mucho tiempo. Si el script personalizado tarda mucho en ejecutarse, considere la posibilidad de cambiar el límite de tiempo de espera añadiendo una DevSettings sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • No se encuentran los registros o el nodo principal no se creó correctamente

      Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre el error.

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo iniciar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

failureCode es ResourceCreationFailure

  • ¿Por qué falló?

    La creación de algunos recursos falló durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una política de IAM mal configurada.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, consulte la pila de clústeres para comprobar si hay más detalles sobre el error de creación de recursos.

failureCode es ClusterCreationFailure

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, visualice la pila de clústeres y compruebe si hay más detalles sobre el HeadNodeWaitCondition error. Status Reason

    Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

¿Está viendo WaitCondition timed out... en la CloudFormation pila

Para obtener más información, consulte failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster..

Ver Resource creation cancelled en CloudFormation pila

Para obtener más información, consulte failureCode es ResourceCreationFailure.

Failed to run cfn-init...¿Ve u otros errores en la AWS CloudFormation pila

Compruebe los detalles adicionales del fallo /var/log/cfn-init.log y /var/log/chef-client.log compruebe si hay más detalles.

Visualización de cómo chef-client.log termina con INFO: Waiting for static fleet capacity provisioning

Esto está relacionado con el tiempo de espera para la creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.

Visualización de Failed to run preinstall or postinstall in cfn-init.log

Tiene un OnNodeStart script OnNodeConfigured or en la HeadNode sección de configuración del clúster. El script no funciona correctamente. Compruebe el /var/log/cfn-init.log archivo para ver los detalles de error del script personalizado.

¿Está viendo This AMI was created with xxx, but is trying to be used with xxx... en la CloudFormation pila

Para obtener más información, consulte failureCode es AmiVersionMismatch.

Ver This AMI was not baked by AWS ParallelCluster... en CloudFormation pila

Para obtener más información, consulte failureCode es InvalidAmi.

Visualización de cómo el comando pcluster create-cluster no se ejecuta localmente

Consulte el ~/.parallelcluster/pcluster-cli.log en su sistema de archivos local para conocer los detalles del error.

Compatibilidad adicional

Siga las instrucciones de solución de problemas que se indican enSolución de problemas de implementación del clúster.

Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos, en la parte AWS ParallelCluster superior GitHub.

Para obtener asistencia adicional, consulte Compatibilidad adicional.