Visualización del gráfico de errores de aprovisionamiento de instancias Visualización del gráfico de errores de instancias en mal estado Visualización del gráfico de tiempo de inactividad de la flota de computación

Solución de problemas de estado del clúster

Las métricas de estado del clúster se añaden al CloudWatch panel de AWS ParallelCluster Amazon a partir de la AWS ParallelCluster versión 3.6.0. En las siguientes secciones, puede obtener información sobre las métricas de estado del panel y las acciones que puede seguir para solucionar y solucionar problemas.

Temas

Visualización del gráfico de errores de aprovisionamiento de instancias
Visualización del gráfico de errores de instancias en mal estado
Visualización del gráfico de tiempo de inactividad de la flota de computación

Visualización del gráfico de errores de aprovisionamiento de instancias

Si ves un valor distinto de cero en el Instance Provisioning Errors gráfico, significa que la EC2 instancia de Amazon que respalda los nodos slurm no se pudo lanzar en la CreateFleet API o. RunInstance

Visualización de `IAMPolicyErrors`

¿Qué ha pasado?

No se pudieron iniciar varias instancias, lo que se debió a que los permisos eran insuficientes y el código de error era insuficiente UnauthorizedOperation.
¿Cómo resolverlo?

Si ha configurado una personalizada InstanceRoleo InstanceProfile, compruebe sus políticas de IAM y compruebe que está utilizando las credenciales correctas.

Compruebe el clustermgtd archivo para ver los detalles de los errores de los nodos estáticos. Compruebe el slurm_resume.log archivo para ver los detalles de los errores de los nodos dinámicos. Utilice los detalles para obtener más información sobre los permisos que faltan y que se deben añadir.

Visualización de `VcpuLimitErrors`

¿Qué ha pasado?

AWS ParallelCluster no pudo lanzar instancias porque alcanzó el límite de vCPU Cuenta de AWS para un tipo de EC2 instancia de Amazon específico que configuró para los nodos de cómputo del clúster.
¿Cómo resolverlo?

Compruebe si hay VcpuLimitExceeded algún error en el clustermgtd archivo para los nodos estáticos y compruebe si hay nodos dinámicos en el slurm_resume.log archivo para obtener información adicional. Para resolver este problema, puede solicitar un aumento de los límites de vCPU. Para obtener más información acerca de cómo ver los límites actuales y solicitar nuevos límites, consulte Cuotas de servicio de Amazon Elastic Compute Cloud en la Guía del usuario de Elastic Compute Cloud para instancias de Linux.

Visualización de `VolumeLimitErrors`

¿Qué ha pasado?

Ha alcanzado el límite de volumen de Amazon EBS y AWS ParallelCluster no puede lanzar instancias con el código de error InsufficientVolumeCapacity oVolumeLimitExceeded. Cuenta de AWS
¿Cómo resolverlo?

Compruebe si hay nodos estáticos en el slurm_resume.log archivo y si hay nodos dinámicos para obtener detalles adicionales sobre el límite de volumen. clustermgtd Para resolver este problema, puede utilizar otro Región de AWS, limpiar los volúmenes existentes o ponerse en contacto con el AWS Support Center para enviar una solicitud para aumentar el límite de volumen de Amazon EBS.

Visualización de `InsufficientCapacityErrors`

¿Qué ha pasado?

AWS ParallelCluster no tiene la capacidad suficiente para lanzar EC2 instancias de Amazon en los nodos secundarios.
¿Cómo resolverlo?

Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error de capacidad insuficiente. Para solucionar el problema, sigue las instrucciones que se encuentran en https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -/. insufficient-capacity-errors

`OtherInstanceLaunchFailures`

¿Qué ha pasado?

La EC2 instancia de Amazon para respaldar los nodos de procesamiento no se pudo iniciar con la RunInstance API CreateFleet o.
¿Cómo resolverlo?

Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error.

Visualización del gráfico de errores de instancias en mal estado

¿Qué ha pasado?

Se lanzaron varias instancias de cómputo, pero más tarde se cancelaron por estar en mal estado.
¿Cómo resolverlo?

Para obtener más información acerca de la solución de problemas de nodos dañados, consulte Solución de problemas de sustituciones y terminaciones inesperadas de nodos.

Visualización de `InstanceBootstrapTimeoutError`

¿Qué ha pasado?

Una instancia no puede unirse al clúster dentro de resume_timeout (para nodos dinámicos) o node_replacement_timeout (para nodos estáticos). Esto puede ocurrir si la red no está configurada correctamente para los nodos de cómputo o si los scripts personalizados que se ejecutan en el nodo de cómputo tardan demasiado en finalizar.
¿Cómo resolverlo?

En el caso de los nodos dinámicos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:
```
Node bootstrap error: Resume timeout expires for node
```
En el caso de los nodos estáticos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
Para obtener más información, compruebe si hay errores en el /var/log/cloud-init-output.log archivo. Puede recuperar las direcciones IP de los nodos de cómputo problemáticos de clustermgtd los archivos de slurm_resume registro.

Visualización de `EC2HealthCheckErrors`

¿Qué ha pasado?

Una instancia no pasó un chequeo de EC2 estado de Amazon.
¿Cómo resolverlo?

Para obtener información acerca de cómo solucionar este problema, consulte Solución de problemas de las instancias con comprobaciones de estado no superadas.

Visualización de `ScheduledEventHealthCheckErrors`

¿Qué ha pasado?

Una instancia no pasó la comprobación del estado de un evento EC2 programado de Amazon y no está en buen estado.
¿Cómo resolverlo?

Para obtener información sobre cómo solucionar este problema, consulte Eventos programados para sus instancias.

Visualización de `NoCorrespondingInstanceErrors`

¿Qué ha pasado?

AWS ParallelCluster no puedo encontrar instancias que respalden los nodos. Es probable que los nodos se hayan autofinalizado durante las operaciones de arranque. El script SlurmQueues/CustomActions/OnNodeStart|OnNodeConfigured o los errores de red pueden generar NoCorrespondingInstanceErrors.
¿Cómo resolverlo?

Para obtener más información, compruebe el nodo /var/log/cloud-init-output.log de cómputo.

Visualización del gráfico de tiempo de inactividad de la flota de computación

Visualización de un `MaxDynamicNodeIdleTime` significativamente más largo que el umbral de reducción del tiempo de inactividad

¿Qué ha pasado?

La instancia no está finalizando correctamente. MaxDynamicNodeIdleTimemuestra el tiempo máximo en segundos que un nodo dinámico, respaldado por una EC2 instancia de Amazon, permanece inactivo. El umbral de reducción del tiempo de inactividad se deriva del parámetro de configuración del clúster ScaledownIdletime. Cuando un nodo de cómputo ha estado inactivo durante más de unos segundos (Indle Time Scaledown), Slurm apaga el nodo y AWS ParallelCluster termina la instancia de respaldo. En este caso, algo impide la finalización de la instancia.
¿Cómo resolverlo?

Para obtener información acerca de este problema, consulte Reemplazar, terminar o apagar instancias y nodos problemáticos en Solución de problemas de escalar.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Ninguno de los escenarios anteriores se aplica a mi situación

Solución de problemas de implementación del clúster

Solución de problemas de estado del clúster

Temas

Visualización del gráfico de errores de aprovisionamiento de instancias

Visualización de IAMPolicyErrors

Visualización de VcpuLimitErrors

Visualización de VolumeLimitErrors

Visualización de InsufficientCapacityErrors

OtherInstanceLaunchFailures