Intentando crear un clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Intentando crear un clúster

Si utiliza la AWS ParallelCluster versión 3.5.0 y versiones posteriores para crear un clúster y se produce un error en la creación de un clúster con el --rollback-on-failure valor establecido enfalse, utilice el comando pcluster describe-cluster CLI para obtener información sobre el estado y el error. En este caso, lo que se espera clusterStatus del pcluster describe-cluster resultado esCREATE_FAILED. Compruebe la failures sección de la salida para encontrar el failureCode yfailureReason. Luego, en la siguiente sección, busca la solución adecuada failureCode para obtener ayuda adicional sobre la solución de problemas. Para más información, consulte pcluster describe-cluster.

En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los /var/log/chef-client.log archivos /var/log/cfn-init.log and. Para obtener más información sobre las colas y cómo utilizarlas, consulte .

Si no tiene unofailureCode, vaya a la AWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para obtener información adicional sobre los errores. Status Reason HeadNodeWaitCondition Para más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED. Compruebe los /var/log/chef-client.log archivos /var/log/cfn-init.log y del nodo principal.

failureCode es OnNodeConfiguredExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.

  • ¿Cómo resolverlo?

    Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeConfigured script después del Running command runpostinstall mensaje.

failureCode es OnNodeConfiguredDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpostinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeConfigured scripts, incluida la descarga.

failureCode es OnNodeConfiguredFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar la causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeConfigured scripts después del Running command runpostinstall mensaje.

failureCode es OnNodeStartExecutionFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.

  • ¿Cómo resolverlo?

    Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeStart script después del Running command runpreinstall mensaje.

failureCode es OnNodeStartDownloadFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.

  • ¿Cómo resolverlo?

    Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

    Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpreinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeStart scripts, incluida la descarga.

failureCode es OnNodeStartFailure

  • ¿Por qué falló?

    Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar la causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeStart scripts después del Running command runpreinstall mensaje.

failureCode es EbsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de EBS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Compruebe los detalles del error en el /var/log/chef-client.log archivo.

failureCode es EfsMountFailure

  • ¿Por qué falló?

    No se pudo montar el volumen de Amazon EFS definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos Amazon EFS existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. EfsSettings FileSystemId.

    Consulte los detalles del error en el /var/log/chef-client.log archivo.

failureCode es FsxMountFailure

  • ¿Por qué falló?

    No se pudo montar el sistema de archivos Amazon FSx definido en la configuración del clúster.

  • ¿Cómo resolverlo?

    Si ha definido un sistema de archivos Amazon FSx existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. FsxLustreSettings FileSystemId.

    Consulte los detalles del error en el /var/log/chef-client.log archivo.

failureCode es RaidMountFailure

  • ¿Por qué falló?

    No se pudieron montar los volúmenes RAID definidos en la configuración del clúster.

  • ¿Cómo resolverlo?

    Compruebe los detalles del error en el /var/log/chef-client.log archivo.

failureCode es AmiVersionMismatch

  • ¿Por qué falló?

    La AWS ParallelCluster versión utilizada para crear la AMI personalizada es diferente de la AWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulte los detalles de la CloudFormation Status Reason pila de clústeres y compruebe si HeadNodeWaitCondition desea obtener información adicional sobre las AWS ParallelCluster versiones y la AMI. Para más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED.

  • ¿Cómo resolverlo?

    Asegúrese de que la AWS ParallelCluster versión utilizada para crear la AMI personalizada sea la misma AWS ParallelCluster que se utilizó para configurar el clúster. Puede cambiar la versión de la AMI personalizada o la versión de la pcluster CLI para que sean iguales.

failureCode es InvalidAmi

  • ¿Por qué falló?

    La AMI personalizada no es válida porque no se creó conAWS ParallelCluster.

  • ¿Cómo resolverlo?

    Use el pcluster build-image comando para crear una AMI haciendo que su AMI sea la imagen principal. Para más información, consulte pcluster build-image.

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo configurar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto podría deberse a un fallo en el aprovisionamiento de la flota informática estática.

  • ¿Cómo resolverlo?

    Compruebe los detalles del error en el /var/log/chef-client.log. archivo.

    nota

    Si ve RuntimeError una excepciónCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, el clúster está en estado protegido. Para más información, consulte Cómo depurar el modo protegido.

failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster.

  • ¿Por qué falló?

    De forma predeterminada, hay un límite de 30 minutos para que se complete la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error de tiempo de espera. La creación del clúster puede agotarse por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a tiempos de espera prolongados para el aprovisionamiento del nodo de procesamiento. No se puede determinar la causa inmediata y es necesario realizar más investigaciones.

  • ¿Cómo resolverlo?

    Consulte los /var/log/chef-client.log archivos /var/log/cfn-init.log y para ver los detalles del error. Para obtener más información sobre las colas y cómo utilizarlas, consulte .

    Puede que descubra lo siguiente en estos registros.

    • Al ver Waiting for static fleet capacity provisioning cerca del final del chef-client.log

      Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para más información, consulte ¿Has detectado errores en las inicializaciones de los nodos de cómputo.

    • El script de visualización OnNodeConfigured o nodo OnNodeStart principal no ha finalizado al final del cfn-init.log

      Esto indica que el script OnNodeConfigured o el script OnNodeStart personalizado tardaron mucho en ejecutarse y provocaron un error de tiempo de espera. Compruebe si su script personalizado tiene problemas que puedan provocar que se ejecute durante mucho tiempo. Si el script personalizado tarda mucho en ejecutarse, considere la posibilidad de cambiar el límite de tiempo de espera añadiendo una DevSettings sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • No se encuentran los registros o el nodo principal no se creó correctamente

      Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre los errores.

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo iniciar el nodo principal.

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

failureCode es ResourceCreationFailure

  • ¿Por qué falló?

    La creación de algunos recursos falló durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una política de IAM mal configurada.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, consulte la pila de clústeres para comprobar si hay más detalles sobre el error de creación de recursos.

failureCode es ClusterCreationFailure

  • ¿Por qué falló?

    No se puede determinar una causa inmediata y es necesaria una investigación adicional.

  • ¿Cómo resolverlo?

    En la CloudFormation consola, visualice la pila de clústeres y compruebe si hay más detalles sobre el HeadNodeWaitCondition error. Status Reason

    Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

¿Está viendo WaitCondition timed out... en la CloudFormation pila?

Para más información, consulte failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster..

Ver Resource creation cancelled en CloudFormation pila

Para más información, consulte failureCode es ResourceCreationFailure.

Failed to run cfn-init...¿Ve u otros errores en la pila AWS CloudFormation

Compruebe los detalles adicionales del fallo /var/log/cfn-init.log y /var/log/chef-client.log compruebe si hay más detalles.

La visión chef-client.log termina con INFO: Waiting for static fleet capacity provisioning

Esto está relacionado con el tiempo de espera para la creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para más información, consulte ¿Has detectado errores en las inicializaciones de los nodos de cómputo.

¿Está viendo Failed to run preinstall or postinstall in cfn-init.log

Tiene un OnNodeStart script OnNodeConfigured or en la HeadNode sección de configuración del clúster. El script no funciona correctamente. Compruebe el /var/log/cfn-init.log archivo para ver los detalles de error del script personalizado.

Ver This AMI was created with xxx, but is trying to be used with xxx... en CloudFormation pila

Para más información, consulte failureCode es AmiVersionMismatch.

Ver This AMI was not baked by AWS ParallelCluster... en CloudFormation pila

Para más información, consulte failureCode es InvalidAmi.

El pcluster create-cluster comando Seeing no se ejecuta localmente

Compruebe los detalles del error ~/.parallelcluster/pcluster-cli.log en su sistema de archivos local.

Compatibilidad adicional

Siga las instrucciones de solución de problemas que se indican enSolución de problemas de implementación.

Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos, en la parte AWS ParallelCluster superior GitHub.

Para obtener asistencia adicional, consultaCompatibilidad adicional.