Solución de problemas de estado del clúster - AWS ParallelCluster

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas de estado del clúster

Las métricas de estado del clúster se añaden al CloudWatch panel de AWS ParallelCluster Amazon a partir de la AWS ParallelCluster versión 3.6.0. En las siguientes secciones, puede obtener información sobre las métricas de estado del panel y las acciones que puede seguir para solucionar y solucionar problemas.

Visualización del gráfico de errores de aprovisionamiento de instancias

Si ve un valor distinto de cero en el Instance Provisioning Errors gráfico, significa que la instancia de Amazon EC2 para respaldar los nodos slurm no se pudo lanzar en la API o. CreateFleet RunInstance

Visualización de IAMPolicyErrors

  • ¿Qué ha pasado?

    No se pudieron iniciar varias instancias, lo que se debió a que los permisos eran insuficientes y el código de error era insuficiente UnauthorizedOperation.

  • ¿Cómo resolverlo?

    Si ha configurado una personalizada InstanceRoleo InstanceProfile, compruebe sus políticas de IAM y compruebe que está utilizando las credenciales correctas.

    Compruebe el clustermgtd archivo para ver los detalles de los errores de los nodos estáticos. Compruebe el slurm_resume.log archivo para ver los detalles de los errores de los nodos dinámicos. Utilice los detalles para obtener más información sobre los permisos que faltan y que se deben añadir.

Visualización de VcpuLimitErrors

  • ¿Qué ha pasado?

    AWS ParallelCluster no pudo lanzar instancias porque alcanzó el límite de vCPU Cuenta de AWS para un tipo específico de instancia de Amazon EC2 que configuró para los nodos de cómputo del clúster.

  • ¿Cómo resolverlo?

    Compruebe si hay VcpuLimitExceeded algún error en el clustermgtd archivo para los nodos estáticos y compruebe si hay nodos dinámicos en el slurm_resume.log archivo para obtener información adicional. Para resolver este problema, puede solicitar un aumento de los límites de vCPU. Para obtener más información sobre cómo ver los límites actuales y solicitar nuevos límites, consulte las cuotas de servicio de Amazon Elastic Compute Cloud en la Guía del usuario de Amazon Elastic Compute Cloud para instancias de Linux.

Visualización de VolumeLimitErrors

  • ¿Qué ha pasado?

    Ha alcanzado el límite de volumen de Amazon EBS y AWS ParallelCluster no puede lanzar instancias con el código de error InsufficientVolumeCapacity oVolumeLimitExceeded. Cuenta de AWS

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el slurm_resume.log archivo y si hay nodos dinámicos para obtener detalles adicionales sobre el límite de volumen. clustermgtd Para resolver este problema, puede utilizar otro Región de AWS, limpiar los volúmenes existentes o ponerse en contacto con el AWS Support Center para enviar una solicitud para aumentar el límite de volumen de Amazon EBS.

Visualización de InsufficientCapacityErrors

  • ¿Qué ha pasado?

    AWS ParallelCluster no tiene la capacidad suficiente para lanzar instancias de Amazon EC2 en los nodos secundarios.

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error de capacidad insuficiente. Para solucionar el problema, siga las instrucciones que se encuentran en https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.

OtherInstanceLaunchFailures

  • ¿Qué ha pasado?

    La instancia de Amazon EC2 para respaldar los nodos de cómputo no se pudo iniciar con la API CreateFleet oRunInstance.

  • ¿Cómo resolverlo?

    Compruebe si hay nodos estáticos en el archivo clustermgtd y el archivo slurm_resume.log por si hay nodos dinámicos para obtener los detalles del error.

Visualización del gráfico de errores de instancias en mal estado

Visualización de InstanceBootstrapTimeoutError

  • ¿Qué ha pasado?

    Una instancia no puede unirse al clúster dentro de resume_timeout (para nodos dinámicos) o node_replacement_timeout (para nodos estáticos). Esto puede ocurrir si la red no está configurada correctamente para los nodos de cómputo o si los scripts personalizados que se ejecutan en el nodo de cómputo tardan demasiado en finalizar.

  • ¿Cómo resolverlo?

    En el caso de los nodos dinámicos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:

    Node bootstrap error: Resume timeout expires for node

    En el caso de los nodos estáticos, compruebe en el clustermgtd registro (/var/log/parallelcluster/clustermgtd) la dirección IP del nodo de procesamiento y errores como los siguientes:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Para obtener más información, compruebe si hay errores en el /var/log/cloud-init-output.log archivo. Puede recuperar las direcciones IP de los nodos de cómputo problemáticos de clustermgtd los archivos de slurm_resume registro.

Visualización de EC2HealthCheckErrors

Visualización de ScheduledEventHealthCheckErrors

  • ¿Qué ha pasado?

    Una instancia no pasó la comprobación del estado de un evento programado de Amazon EC2 y no está en buen estado.

  • ¿Cómo resolverlo?

    Para obtener información sobre cómo solucionar este problema, consulte Eventos programados para sus instancias.

Visualización de NoCorrespondingInstanceErrors

  • ¿Qué ha pasado?

    AWS ParallelCluster no puedo encontrar instancias que respalden los nodos. Es probable que los nodos se hayan autofinalizado durante las operaciones de arranque. El script SlurmQueues/CustomActions/OnNodeStart|OnNodeConfigured o los errores de red pueden generar NoCorrespondingInstanceErrors.

  • ¿Cómo resolverlo?

    Para obtener más información, compruebe el nodo /var/log/cloud-init-output.log de cómputo.

Visualización del gráfico de tiempo de inactividad de la flota de computación

Visualización de un MaxDynamicNodeIdleTime significativamente más largo que el umbral de reducción del tiempo de inactividad

  • ¿Qué ha pasado?

    La instancia no está finalizando correctamente. MaxDynamicNodeIdleTimemuestra el tiempo máximo en segundos que un nodo dinámico, respaldado por una instancia de Amazon EC2, permanece inactivo. El umbral de reducción del tiempo de inactividad se deriva del parámetro de configuración del clúster ScaledownIdletime. Cuando un nodo de cómputo ha estado inactivo durante más de unos segundos con la reducción del tiempo de inactividad, se Slurm apaga el nodo y se AWS ParallelCluster termina la instancia de respaldo. En este caso, algo impide la finalización de la instancia.

  • ¿Cómo resolverlo?

    Para obtener información acerca de este problema, consulte Reemplazar, terminar o apagar instancias y nodos problemáticos en Solución de problemas de escalar.