Métricas de integridade do cluster para solução de problemas - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Métricas de integridade do cluster para solução de problemas

As métricas de integridade do cluster são adicionadas ao CloudWatch painel AWS ParallelCluster da Amazon a partir da AWS ParallelCluster versão 3.6.0. Nas seções a seguir, você vai aprender sobre as métricas de integridade do painel e sobre ações que você pode realizar para solucionar problemas.

Visualizando o gráfico de Erros de provisionamento de instâncias

Se você ver um valor diferente de zero no Instance Provisioning Errors gráfico, isso significa que a instância do Amazon EC2 para apoiar os nós do slurm falhou ao iniciar na API ou. CreateFleet RunInstance

Vendo IAMPolicyErrors

  • O que aconteceu?

    Várias instâncias falharam na inicialização, o que é causado por permissões insuficientes com código de erro UnauthorizedOperation.

  • Como resolver?

    Se você configurou um InstanceRole ou InstanceProfile personalizado, verifique suas políticas do IAM e verifique se está usando as credenciais corretas.

    Verifique o arquivo clustermgtd para ver os detalhes do erro do nó estático. Verifique o arquivo slurm_resume.log para ver os detalhes do erro do nó dinâmico. Use os detalhes para saber mais sobre as permissões ausentes que devem ser adicionadas.

Vendo VcpuLimitErrors

  • O que aconteceu?

    AWS ParallelCluster falhou ao iniciar instâncias porque atingiu o limite de vCPU Conta da AWS para um tipo específico de instância do Amazon EC2 que você configurou para nós de computação de cluster.

  • Como resolver?

    Verifique o erro VcpuLimitExceeded no arquivo clustermgtd para nós estáticos e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes adicionais. Para resolver esse problema, é possível solicitar um aumento nos limites da vCPU. Para obter mais informações sobre como visualizar os limites atuais e solicitar novos limites, consulte as cotas de serviço do Amazon Elastic Compute Cloud no Guia do usuário do Amazon Elastic Compute Cloud para instâncias Linux.

Vendo VolumeLimitErrors

  • O que aconteceu?

    Você atingiu o limite de volume do Amazon EBS e AWS ParallelCluster não consegue iniciar instâncias com código de erro InsufficientVolumeCapacity ouVolumeLimitExceeded. Conta da AWS

  • Como resolver?

    Verifique o arquivo clustermgtd para ver se há nós estáticos, e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes adicionais sobre limite de volume. Para resolver esse problema, você pode usar um outro Região da AWS, limpar os volumes existentes ou entrar em contato com o AWS Support Center para enviar uma solicitação para aumentar seu limite de volume do Amazon EBS.

Vendo InsufficientCapacityErrors

  • O que aconteceu?

    AWS ParallelCluster não tem capacidade suficiente para iniciar instâncias do Amazon EC2 em nós secundários.

  • Como resolver?

    Verifique se há nós estáticos no arquivo clustermgtd e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes de erro de capacidade insuficientes. Para solucionar o problema, siga as orientações em https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/.

OtherInstanceLaunchFailures

  • O que aconteceu?

    A instância do Amazon EC2 para apoiar os nós de computação falhou ao ser iniciada com a API ou. CreateFleet RunInstance

  • Como resolver?

    Verifique se há nós estáticos no arquivo clustermgtd e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes do erro.

Visualizando o gráfico de Erros de instância não saudáveis

Vendo InstanceBootstrapTimeoutError

  • O que aconteceu?

    Uma instância não pode se juntar ao cluster em resume_timeout (para nós dinâmicos) ou node_replacement_timeout (para nós estáticos). Isso pode ocorrer se a rede não estiver configurada corretamente para os nós de computação, ou se os scripts personalizados executados no nó de computação demorarem muito para serem concluídos.

  • Como resolver?

    Para nós dinâmicos, verifique no log clustermgtd (/var/log/parallelcluster/clustermgtd) o endereço IP do nó de computação e erros como os seguintes:

    Node bootstrap error: Resume timeout expires for node

    Para nós estáticos, verifique no log clustermgtd (/var/log/parallelcluster/clustermgtd) o endereço IP do nó de computação e erros como os seguintes:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.

    Para obter detalhes adicionais, verifique se há erros no arquivo /var/log/cloud-init-output.log. Você pode recuperar endereços IP de nós de computação problemáticos a partir dos arquivos de log clustermgtd e slurm_resume.

Vendo EC2HealthCheckErrors

Vendo ScheduledEventHealthCheckErrors

  • O que aconteceu?

    Uma instância falhou em uma verificação de integridade de um evento programado do Amazon EC2 e não está íntegra.

  • Como resolver?

    Para obter informações sobre como solucionar esse problema, consulte Eventos programados para instâncias.

Vendo NoCorrespondingInstanceErrors

  • O que aconteceu?

    AWS ParallelCluster não consigo encontrar instâncias de apoio aos nós. Os nós provavelmente terminaram automaticamente durante as operações de bootstrap. scripts SlurmQueues / CustomActions / OnNodeStart | OnNodeConfigured ou erros de rede podem produzirNoCorrespondingInstanceErrors.

  • Como resolver?

    Para obter detalhes adicionais, consulte /var/log/cloud-init-output.log para ver o nó de computação.

Visualizando o gráfico de Tempo de inatividade da frota de computadores

Observando um MaxDynamicNodeIdleTime que é significativamente maior do que o limite de redução do tempo de inatividade

  • O que aconteceu?

    Sua instância não está sendo encerrada corretamente. MaxDynamicNodeIdleTimemostra o tempo máximo em segundos em que um nó dinâmico, apoiado por uma instância do Amazon EC2, fica ocioso. O limite de redução do tempo de inatividade é derivado do parâmetro ScaledownIdletime de configuração do cluster. Quando um nó de computação fica ocioso por mais de segundos do Idle Time Scaledown, desliga o nó e Slurm AWS ParallelCluster encerra a instância de backup. Nesse caso, algo está impedindo o encerramento da instância.

  • Como resolver?

    Para obter mais informações sobre esse problema, consulte Substituindo, encerrando ou desligando instâncias e nós problemáticos em Solucionar problemas de escala.