Solución de problemas de estado del clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas de estado del clúster

Las métricas del estado del clúster se añaden al panel de Amazon CloudWatch AWS ParallelCluster a partir de AWS ParallelCluster versión 3.6.0. En las siguientes secciones, puede obtener información sobre las métricas de estado del panel y las acciones que puede seguir para solucionar y solucionar problemas.

Consulta el gráfico de errores de aprovisionamiento de instancias

Si ves un valor distinto de cero en el Instance Provisioning Errors gráfico, significa que la instancia EC2 que respalda los nodos slurm no se pudo lanzar en la API CreateFleet o RunInstance.

¿Está viendo IAMPolicyErrors

  • ¿Qué ha pasado?

    No se pudieron iniciar varias instancias, lo que se debió a que los permisos eran insuficientes y el código de error era insuficiente UnauthorizedOperation.

  • ¿Cómo resolverlo?

    Si ha configurado una personalizada InstanceRoleo InstanceProfile, compruebe sus políticas de IAM y compruebe que está utilizando las credenciales correctas.

    Compruebe el clustermgtd archivo para ver los detalles de los errores de los nodos estáticos. Compruebe el slurm_resume.log archivo para ver los detalles de los errores de los nodos dinámicos. Utilice los detalles para obtener más información sobre los permisos que faltan y que se deben añadir.

¿Está viendo VcpuLimitErrors

  • ¿Qué ha pasado?

    AWS ParallelClusterno pudo lanzar instancias porque alcanzó el límite de vCPU Cuenta de AWS para un tipo de instancia EC2 específico que configuró para los nodos de procesamiento del clúster.

  • ¿Cómo resolverlo?

    Compruebe si hay VcpuLimitExceeded algún error en el clustermgtd archivo para los nodos estáticos y compruebe si hay nodos dinámicos en el slurm_resume.log archivo para obtener información adicional. Para resolver este problema, puede solicitar un aumento de los límites de vCPU. Para obtener más información acerca de cómo ver los límites actuales y solicitar nuevos límites, consulte Cuotas de servicio de Amazon EC2 en la Guía del usuario de Amazon EC2 para instancias de Linux.

¿Está viendo VolumeLimitErrors

  • ¿Qué ha pasado?

    Ha alcanzado el límite de volumen de Amazon EBS y AWS ParallelCluster no puede lanzar instancias con un código de error InsufficientVolumeCapacity oVolumeLimitExceeded. Cuenta de AWS

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el slurm_resume.log archivo y si hay nodos dinámicos para obtener detalles adicionales sobre el límite de volumen. clustermgtd Para resolver este problema, puede utilizar otroRegión de AWS, limpiar los volúmenes existentes o ponerse en contacto con el AWS Support Center para enviar una solicitud para aumentar el límite de volumen de Amazon EBS.

¿Estás viendo InsufficientCapacityErrors

  • ¿Qué ha pasado?

    AWS ParallelClusterno tiene la capacidad suficiente para lanzar instancias EC2 en los nodos posteriores.

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error de capacidad insuficiente. Para solucionar el problema, sigue las instrucciones de https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/.

OtherInstanceLaunchFailures

  • ¿Qué ha pasado?

    La instancia EC2 para respaldar los nodos de cómputo no se pudo iniciar con la API CreateFleet oRunInstance.

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error.

Ver el gráfico de errores de instancias en mal estado

¿Viendo InstanceBootstrapTimeoutError

  • ¿Qué ha pasado?

    Una instancia no puede unirse al clúster dentro de resume_timeout (para nodos dinámicos) o node_replacement_timeout (para nodos estáticos). Esto puede ocurrir si la red no está configurada correctamente para los nodos de cómputo o si los scripts personalizados que se ejecutan en el nodo de cómputo tardan demasiado en finalizar.

  • ¿Cómo resolverlo?

    En el caso de los nodos dinámicos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:

    Node bootstrap error: Resume timeout expires for node

    En el caso de los nodos estáticos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Para obtener más información, compruebe si hay errores en el /var/log/cloud-init-output.log archivo. Puede recuperar las direcciones IP de los nodos de cómputo problemáticos de clustermgtd los archivos de slurm_resume registro.

¿Viendo EC2HealthCheckErrors

¿Está viendo ScheduledEventHealthCheckErrors

  • ¿Qué ha pasado?

    Una instancia no pasó la comprobación del estado de un evento programado de EC2 y no está en buen estado.

  • ¿Cómo resolverlo?

    Para obtener información sobre cómo solucionar este problema, consulta Eventos programados para sus instancias.

¿Está viendo NoCorrespondingInstanceErrors

  • ¿Qué ha pasado?

    AWS ParallelClusterno puedo encontrar instancias que respalden los nodos. Es probable que los nodos se hayan autoterminado durante las operaciones de arranque. SlurmQueues/CustomActions/OnNodeStart| se pueden producir errores de secuencia de OnNodeConfiguredcomandos o de red. NoCorrespondingInstanceErrors

  • ¿Cómo resolverlo?

    Para obtener más información, compruebe el nodo /var/log/cloud-init-output.log de cómputo.

Consulte el gráfico de tiempo de inactividad de Compute Fleet

Veo un valor MaxDynamicNodeIdleTime significativamente más largo que el umbral de reducción del tiempo de inactividad

  • ¿Qué ha pasado?

    La instancia no está finalizando correctamente. MaxDynamicNodeIdleTimemuestra el tiempo máximo en segundos que un nodo dinámico, respaldado por una instancia EC2, permanece inactivo. El umbral de reducción del tiempo de inactividad se deriva del parámetro de configuración del clúster ScaledownIdletime. Cuando un nodo de cómputo ha estado inactivo durante más de unos segundos con la reducción del tiempo de inactividad, se Slurm apaga el nodo y se cierra la instancia de respaldoAWS ParallelCluster. En este caso, algo impide la finalización de la instancia.

  • ¿Cómo resolverlo?

    Para obtener información acerca de este problema, consulte Reemplazar, terminar o apagar instancias y nodos problemáticos en Solución de problemas de escalar.