failureCode es OnNodeConfiguredExecutionFailure failureCode es OnNodeConfiguredDownloadFailure failureCode es OnNodeConfiguredFailure failureCode es OnNodeStartExecutionFailure failureCode es OnNodeStartDownloadFailure failureCode es OnNodeStartFailure failureCode es EbsMountFailure failureCode es EfsMountFailure failureCode es FsxMountFailure failureCode es RaidMountFailure failureCode es AmiVersionMismatch failureCode es InvalidAmi failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo configurar el nodo principal.failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster.failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo iniciar el nodo principal.failureCode es ResourceCreationFailure failureCode es ClusterCreationFailure ¿Está viendo WaitCondition timed out... en la CloudFormation pila?Ver Resource creation cancelled en CloudFormation pila Failed to run cfn-init...¿Ve u otros errores en la AWS CloudFormation pila Visualización de cómo chef-client.log termina con INFO: Waiting for static fleet capacity provisioning Visualización de Failed to run preinstall or postinstall in cfn-init.log ¿Está viendo This AMI was created with xxx, but is trying to be used with xxx... en la CloudFormation pila Ver This AMI was not baked by AWS ParallelCluster... en CloudFormation pila Visualización de cómo el comando pcluster create-cluster no se ejecuta localmente Compatibilidad adicional

Intentando crear un clúster

Si utiliza la AWS ParallelCluster versión 3.5.0 y versiones posteriores para crear un clúster y se produce un error en la creación de un clúster con el --rollback-on-failure valor establecido enfalse, utilice el comando pcluster describe-cluster CLI para obtener información sobre el estado y el error. En este caso, lo que se espera clusterStatus del pcluster describe-cluster resultado esCREATE_FAILED. Compruebe la failures sección de la salida para encontrar el failureCode yfailureReason. Luego, en la siguiente sección, busque la solución adecuada failureCode para obtener ayuda adicional sobre la solución de problemas. Para obtener más información, consulte pcluster describe-cluster.

En las siguientes secciones, le recomendamos que compruebe los registros del nodo principal, como los /var/log/chef-client.log archivos /var/log/cfn-init.log and. Para obtener más información sobre AWS ParallelCluster los registros y cómo verlos, consulte Registros clave para la depuración yRecuperación y conservación de registros.

Si no tiene unofailureCode, vaya a la AWS CloudFormation consola para ver la pila de clústeres. Compruebe si hay errores en otros recursos para obtener información adicional sobre los errores. Status Reason HeadNodeWaitCondition Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED. Compruebe los /var/log/chef-client.log archivos /var/log/cfn-init.log y del nodo principal. Si la creación del clúster falla debido a un error en la creación del nodo principal y los registros del clúster no están disponibles en el grupo de registros del clúster, debe conservar el clúster en caso de error, especificar --rollback-on-failure = True y recuperar los registros desde el propio nodo principal.

`failureCode` es `OnNodeConfiguredExecutionFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.
¿Cómo resolverlo?

Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeConfigured script después del Running command runpostinstall mensaje.

`failureCode` es `OnNodeConfiguredDownloadFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.
¿Cómo resolverlo?

Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpostinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeConfigured scripts, incluida la descarga.

`failureCode` es `OnNodeConfiguredFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeConfigured del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional.
¿Cómo resolverlo?

Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeConfigured scripts después del Running command runpostinstall mensaje.

`failureCode` es `OnNodeStartExecutionFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el script personalizado no se pudo ejecutar.
¿Cómo resolverlo?

Consulte el /var/log/cfn-init.log archivo para obtener más información sobre el error y cómo solucionar el problema en su script personalizado. Cerca del final de este registro, es posible que veas información de ejecución relacionada con el OnNodeStart script después del Running command runpreinstall mensaje.

`failureCode` es `OnNodeStartDownloadFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, no se pudo descargar el script personalizado.
¿Cómo resolverlo?

Asegúrese de que la URL sea válida y de que el acceso esté configurado correctamente. Para obtener más información sobre la configuración de los scripts de arranque personalizados, consulteAcciones de arranque personalizadas.

Compruebe los archivos en /var/log/cfn-init.log. Al final de este registro, es posible que, después del Running command runpreinstall mensaje, aparezca información sobre la ejecución relacionada con el procesamiento de los OnNodeStart scripts, incluida la descarga.

`failureCode` es `OnNodeStartFailure`

¿Por qué falló?

Proporcionó un script personalizado en la sección OnNodeStart del nodo principal de la configuración para crear un clúster. Sin embargo, el uso del script personalizado falló en la implementación del clúster. No se puede determinar una causa inmediata y es necesaria una investigación adicional.
¿Cómo resolverlo?

Compruebe los archivos en /var/log/cfn-init.log. Cerca del final de este registro, es posible que vea información de ejecución relacionada con el procesamiento de OnNodeStart scripts después del Running command runpreinstall mensaje.

`failureCode` es `EbsMountFailure`

¿Por qué falló?

No se pudo montar el volumen de EBS definido en la configuración del clúster.
¿Cómo resolverlo?

Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

`failureCode` es `EfsMountFailure`

¿Por qué falló?

No se pudo montar el volumen de Amazon EFS definido en la configuración del clúster.
¿Cómo resolverlo?

Si ha definido un sistema de archivos Amazon EFS existente, asegúrese de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. EfsSettings FileSystemId.

Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

`failureCode` es `FsxMountFailure`

¿Por qué falló?

No se pudo montar el sistema de FSx archivos de Amazon definido en la configuración del clúster.
¿Cómo resolverlo?

Si has definido un sistema de FSx archivos de Amazon existente, asegúrate de que se permita el tráfico entre el clúster y el sistema de archivos. Para obtener más información, consulte SharedStorage. FsxLustreSettings FileSystemId.

Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

`failureCode` es `RaidMountFailure`

¿Por qué falló?

No se pudieron montar los volúmenes RAID definidos en la configuración del clúster.
¿Cómo resolverlo?

Consulte el archivo /var/log/chef-client.log para conocer los detalles del error.

`failureCode` es `AmiVersionMismatch`

¿Por qué falló?

La AWS ParallelCluster versión utilizada para crear la AMI personalizada es diferente de la AWS ParallelCluster versión utilizada para configurar el clúster. En la CloudFormation consola, consulte los detalles de la CloudFormation Status Reason pila de clústeres y compruebe si HeadNodeWaitCondition desea obtener información adicional sobre las AWS ParallelCluster versiones y la AMI. Para obtener más información, consulte Vea AWS CloudFormation los eventos en CREATE_FAILED.
¿Cómo resolverlo?

Asegúrese de que la AWS ParallelCluster versión utilizada para crear la AMI personalizada sea la misma AWS ParallelCluster que se utilizó para configurar el clúster. Puede cambiar la versión de la AMI personalizada o la versión de la pcluster CLI para que sean iguales.

`failureCode` es `InvalidAmi`

¿Por qué falló?

La AMI personalizada no es válida porque no se creó con AWS ParallelCluster.
¿Cómo resolverlo?

Use el pcluster build-image comando para crear una AMI haciendo que su AMI sea la imagen principal. Para obtener más información, consulte pcluster build-image.

`failureCode`está `HeadNodeBootstrapFailure` con `failureReason` No se pudo configurar el nodo principal.

¿Por qué falló?

No se puede determinar una causa inmediata y es necesaria una investigación adicional. Por ejemplo, podría ser que el clúster esté en estado protegido y esto podría deberse a un fallo en el aprovisionamiento de la flota de computación estática.
¿Cómo resolverlo?

Consulte el archivo /var/log/chef-client.log. para conocer los detalles del error.

nota
Si ve la excepción de RuntimeError Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning, el clúster está en estado protegido. Para obtener más información, consulte Cómo depurar el modo protegido.

`failureCode`está `HeadNodeBootstrapFailure` agotando el tiempo de espera para la creación del `failureReason` clúster.

¿Por qué falló?

De forma predeterminada, hay un límite de 30 minutos para que se complete la creación del clúster. Si la creación del clúster no se ha completado dentro de este período de tiempo, se produce un error de tiempo de espera. La creación del clúster puede agotarse por diferentes motivos. Por ejemplo, los errores de tiempo de espera pueden deberse a un error en la creación del nodo principal, a un problema de red, a scripts personalizados que tardan demasiado en ejecutarse en el nodo principal, a un error en un script personalizado que se ejecuta en los nodos de procesamiento o a tiempos de espera prolongados para el aprovisionamiento del nodo de procesamiento. No se puede determinar una causa inmediata y es necesaria una investigación adicional.
¿Cómo resolverlo?

Consulte los archivos /var/log/cfn-init.log y /var/log/chef-client.log para conocer los detalles del error. Para obtener más información sobre los registros de AWS ParallelCluster y cómo obtenerlos, consulte Registros clave para la depuración y Recuperación y conservación de registros.
Puede que descubra lo siguiente en estos registros.
- Visualización de Waiting for static fleet capacity provisioning cerca del final del chef-client.log
  
  Esto indica que se agotó el tiempo de espera para la creación del clúster al esperar a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.
- La visualización del script del nodo principal de OnNodeConfigured o OnNodeStart no ha finalizado al final del cfn-init.log
  
  Esto indica que el script OnNodeConfigured o el script OnNodeStart personalizado tardaron mucho en ejecutarse y provocaron un error de tiempo de espera. Compruebe si su script personalizado tiene problemas que puedan provocar que se ejecute durante mucho tiempo. Si el script personalizado tarda mucho en ejecutarse, considere la posibilidad de cambiar el límite de tiempo de espera añadiendo una DevSettings sección al archivo de configuración del clúster, como se muestra en el siguiente ejemplo:
```
DevSettings:
  Timeouts:
    HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
```
- No se encuentran los registros o el nodo principal no se creó correctamente
  
  Es posible que el nodo principal no se haya creado correctamente y que no se puedan encontrar los registros. En la CloudFormation consola, consulte los detalles de la pila de clústeres para comprobar si hay más detalles sobre el error.

`failureCode`está `HeadNodeBootstrapFailure` con `failureReason` No se pudo iniciar el nodo principal.

¿Por qué falló?

No se puede determinar una causa inmediata y es necesaria una investigación adicional.
¿Cómo resolverlo?

Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

`failureCode` es `ResourceCreationFailure`

¿Por qué falló?

La creación de algunos recursos falló durante el proceso de creación del clúster. El fallo puede producirse por varias razones: Por ejemplo, los errores en la creación de recursos pueden deberse a problemas de capacidad o a una política de IAM mal configurada.
¿Cómo resolverlo?

En la CloudFormation consola, consulte la pila de clústeres para comprobar si hay más detalles sobre el error de creación de recursos.

`failureCode` es `ClusterCreationFailure`

¿Por qué falló?

No se puede determinar una causa inmediata y es necesaria una investigación adicional.
¿Cómo resolverlo?

En la CloudFormation consola, visualice la pila de clústeres y compruebe si hay más detalles sobre el HeadNodeWaitCondition error. Status Reason

Compruebe los campos /var/log/cfn-init.log y /var/log/chef-client.log.

¿Está viendo `WaitCondition timed out...` en la CloudFormation pila?

Para obtener más información, consulte failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster..

Ver `Resource creation cancelled` en CloudFormation pila

Para obtener más información, consulte failureCode es ResourceCreationFailure.

`Failed to run cfn-init...`¿Ve u otros errores en la AWS CloudFormation pila

Compruebe los detalles adicionales del fallo /var/log/cfn-init.log y /var/log/chef-client.log compruebe si hay más detalles.

Visualización de cómo `chef-client.log` termina con `INFO: Waiting for static fleet capacity provisioning`

Esto está relacionado con el tiempo de espera para la creación del clúster cuando se espera a que se enciendan los nodos estáticos. Para obtener más información, consulte Visualización de errores en las inicializaciones de los nodos de computación.

Visualización de `Failed to run preinstall or postinstall in cfn-init.log`

Tiene un OnNodeStart script OnNodeConfigured or en la HeadNode sección de configuración del clúster. El script no funciona correctamente. Compruebe el /var/log/cfn-init.log archivo para ver los detalles de error del script personalizado.

¿Está viendo `This AMI was created with xxx, but is trying to be used with xxx...` en la CloudFormation pila

Para obtener más información, consulte failureCode es AmiVersionMismatch.

Ver `This AMI was not baked by AWS ParallelCluster...` en CloudFormation pila

Para obtener más información, consulte failureCode es InvalidAmi.

Visualización de cómo el comando `pcluster create-cluster` no se ejecuta localmente

Consulte el ~/.parallelcluster/pcluster-cli.log en su sistema de archivos local para conocer los detalles del error.

Compatibilidad adicional

Siga las instrucciones de solución de problemas que se indican enSolución de problemas de implementación del clúster.

Comprueba si tu situación está incluida en la sección Problemas GitHub conocidos, en la parte AWS ParallelCluster superior GitHub.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

AWS ParallelCluster solución de problemas

Intentando ejecutar un trabajo

Intentando crear un clúster

failureCode es OnNodeConfiguredExecutionFailure

failureCode es OnNodeConfiguredDownloadFailure

failureCode es OnNodeConfiguredFailure

failureCode es OnNodeStartExecutionFailure

failureCode es OnNodeStartDownloadFailure

failureCode es OnNodeStartFailure

failureCode es EbsMountFailure

failureCode es EfsMountFailure

failureCode es FsxMountFailure

failureCode es RaidMountFailure

failureCode es AmiVersionMismatch

failureCode es InvalidAmi

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo configurar el nodo principal.

nota

failureCodeestá HeadNodeBootstrapFailure agotando el tiempo de espera para la creación del failureReason clúster.

failureCodeestá HeadNodeBootstrapFailure con failureReason No se pudo iniciar el nodo principal.

failureCode es ResourceCreationFailure

failureCode es ClusterCreationFailure

¿Está viendo WaitCondition timed out... en la CloudFormation pila?

Ver Resource creation cancelled en CloudFormation pila

Failed to run cfn-init...¿Ve u otros errores en la AWS CloudFormation pila

Visualización de cómo chef-client.log termina con INFO: Waiting for static fleet capacity provisioning

Visualización de Failed to run preinstall or postinstall in cfn-init.log

¿Está viendo This AMI was created with xxx, but is trying to be used with xxx... en la CloudFormation pila

Ver This AMI was not baked by AWS ParallelCluster... en CloudFormation pila

Visualización de cómo el comando pcluster create-cluster no se ejecuta localmente