Visualizando o gráfico de Erros de provisionamento de instâncias Visualizando o gráfico de Erros de instância não saudáveis Visualizando o gráfico de Tempo de inatividade da frota de computadores

Métricas de integridade do cluster para solução de problemas

As métricas de integridade do cluster são adicionadas ao CloudWatch painel AWS ParallelCluster da Amazon a partir da AWS ParallelCluster versão 3.6.0. Nas seções a seguir, você vai aprender sobre as métricas de integridade do painel e sobre ações que você pode realizar para solucionar problemas.

Tópicos

Visualizando o gráfico de Erros de provisionamento de instâncias
Visualizando o gráfico de Erros de instância não saudáveis
Visualizando o gráfico de Tempo de inatividade da frota de computadores

Visualizando o gráfico de Erros de provisionamento de instâncias

Se você ver um valor diferente de zero no Instance Provisioning Errors gráfico, isso significa que a EC2 instância da Amazon para apoiar os nós do slurm falhou ao iniciar na API ou. CreateFleet RunInstance

Vendo `IAMPolicyErrors`

O que aconteceu?

Várias instâncias falharam na inicialização, o que é causado por permissões insuficientes com código de erro UnauthorizedOperation.
Como resolver?

Se você configurou um InstanceRole ou InstanceProfile personalizado, verifique suas políticas do IAM e verifique se está usando as credenciais corretas.

Verifique o arquivo clustermgtd para ver os detalhes do erro do nó estático. Verifique o arquivo slurm_resume.log para ver os detalhes do erro do nó dinâmico. Use os detalhes para saber mais sobre as permissões ausentes que devem ser adicionadas.

Vendo `VcpuLimitErrors`

O que aconteceu?

AWS ParallelCluster falhou ao iniciar instâncias porque atingiu o limite de vCPU Conta da AWS para um tipo específico de EC2 instância da Amazon que você configurou para nós de computação de cluster.
Como resolver?

Verifique o erro VcpuLimitExceeded no arquivo clustermgtd para nós estáticos e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes adicionais. Para resolver esse problema, é possível solicitar um aumento nos limites da vCPU. Para ter mais informações sobre como visualizar limites atuais e solicitar novos limites, consulte Service Quotas do Amazon Elastic Compute Cloud no Guia do usuário do Amazon Elastic Compute Cloud para instâncias do Linux.

Vendo `VolumeLimitErrors`

O que aconteceu?

Você atingiu o limite de volume do Amazon EBS e AWS ParallelCluster não consegue iniciar instâncias com código de erro InsufficientVolumeCapacity ouVolumeLimitExceeded. Conta da AWS
Como resolver?

Verifique o arquivo clustermgtd para ver se há nós estáticos, e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes adicionais sobre limite de volume. Para resolver esse problema, você pode usar um outro Região da AWS, limpar os volumes existentes ou entrar em contato com o AWS Support Center para enviar uma solicitação para aumentar seu limite de volume do Amazon EBS.

Vendo `InsufficientCapacityErrors`

O que aconteceu?

AWS ParallelCluster não tem capacidade suficiente para iniciar EC2 instâncias da Amazon em nós secundários.
Como resolver?

Verifique se há nós estáticos no arquivo clustermgtd e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes de erro de capacidade insuficientes. Para solucionar o problema, siga as orientações em https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -/. insufficient-capacity-errors

`OtherInstanceLaunchFailures`

O que aconteceu?

A EC2 instância da Amazon para apoiar os nós de computação falhou ao ser iniciada com a API CreateFleet ouRunInstance.
Como resolver?

Verifique se há nós estáticos no arquivo clustermgtd e verifique se há nós dinâmicos no arquivo slurm_resume.log para obter detalhes do erro.

Visualizando o gráfico de Erros de instância não saudáveis

O que aconteceu?

Várias instâncias de computação foram iniciadas, mas depois encerradas por não serem íntegras.
Como resolver?

Para obter mais informações sobre solução de problemas de nós não saudáveis, consulte Solução de problemas inesperados de substituições e encerramentos de nós.

Vendo `InstanceBootstrapTimeoutError`

O que aconteceu?

Uma instância não pode se juntar ao cluster em resume_timeout (para nós dinâmicos) ou node_replacement_timeout (para nós estáticos). Isso pode ocorrer se a rede não estiver configurada corretamente para os nós de computação, ou se os scripts personalizados executados no nó de computação demorarem muito para serem concluídos.
Como resolver?

Para nós dinâmicos, verifique no log clustermgtd (/var/log/parallelcluster/clustermgtd) o endereço IP do nó de computação e erros como os seguintes:
```
Node bootstrap error: Resume timeout expires for node
```
Para nós estáticos, verifique no log clustermgtd (/var/log/parallelcluster/clustermgtd) o endereço IP do nó de computação e erros como os seguintes:
```
Node bootstrap error: Replacement timeout expires for node ... in replacement.
```
Para obter detalhes adicionais, verifique se há erros no arquivo /var/log/cloud-init-output.log. Você pode recuperar endereços IP de nós de computação problemáticos a partir dos arquivos de log clustermgtd e slurm_resume.

Vendo `EC2HealthCheckErrors`

O que aconteceu?

Uma instância falhou em uma verificação de EC2 saúde da Amazon.
Como resolver?

Para obter informações sobre como solucionar esse problema, consulte Solução de problemas em instâncias com falha nas verificações de status.

Vendo `ScheduledEventHealthCheckErrors`

O que aconteceu?

Uma instância falhou em uma verificação de integridade de um evento EC2 agendado pela Amazon e não está íntegra.
Como resolver?

Para obter informações sobre como solucionar esse problema, consulte Eventos programados para instâncias.

Vendo `NoCorrespondingInstanceErrors`

O que aconteceu?

AWS ParallelCluster não consigo encontrar instâncias de apoio aos nós. Os nós provavelmente terminaram automaticamente durante as operações de bootstrap. scripts SlurmQueues / CustomActions / OnNodeStart | OnNodeConfigured ou erros de rede podem produzirNoCorrespondingInstanceErrors.
Como resolver?

Para obter detalhes adicionais, consulte /var/log/cloud-init-output.log para ver o nó de computação.

Visualizando o gráfico de Tempo de inatividade da frota de computadores

Observando um `MaxDynamicNodeIdleTime` que é significativamente maior do que o limite de redução do tempo de inatividade

O que aconteceu?

Sua instância não está sendo encerrada corretamente. MaxDynamicNodeIdleTimemostra o tempo máximo em segundos em que um nó dinâmico, apoiado por uma EC2 instância da Amazon, fica ocioso. O limite de redução do tempo de inatividade é derivado do parâmetro ScaledownIdletime de configuração do cluster. Quando um nó de computação fica ocioso por mais de segundos de redução do tempo ocioso, Slurm desliga o nó e AWS ParallelCluster encerra a instância de backup. Nesse caso, algo está impedindo o encerramento da instância.
Como resolver?

Para obter mais informações sobre esse problema, consulte Substituindo, encerrando ou desligando instâncias e nós problemáticos em Solucionar problemas de escala.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Nenhum dos cenários anteriores se aplica à minha situação

Solução de problemas de implantação de cluster

Métricas de integridade do cluster para solução de problemas

Tópicos

Visualizando o gráfico de Erros de provisionamento de instâncias

Vendo IAMPolicyErrors

Vendo VcpuLimitErrors

Vendo VolumeLimitErrors

Vendo InsufficientCapacityErrors

OtherInstanceLaunchFailures