Vendo erros nas inicializações dos nós de computação - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Vendo erros nas inicializações dos nós de computação

Vendo Node bootstrap error em clustermgtd.log

O problema está relacionado à falha na inicialização dos nós de computação. Para obter informações sobre como depurar um problema no modo protegido por cluster, consulte Como depurar o modo protegido.

Eu configurei reservas de capacidade sob demanda (ODCRs) ou instâncias reservadas zonais

ODCRs que incluem instâncias que têm várias interfaces de rede, como P4d, P4de e Trainium (Trn) AWS

No arquivo de configuração do cluster, verifique se o HeadNode está em uma sub-rede pública e se os nós de computação estão em uma sub-rede privada.

Os ODCRs são ODCRs direcionados

Vendo, Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. embora eu já tenha /opt/slurm/etc/pcluster/run_instances_overrides.json instalado, seguindo as instruções dadas em Inicie instâncias com reservas de capacidade sob demanda (ODCR)

Se você estiver usando AWS ParallelCluster as versões 3.1.1 a 3.2.1 com ODCRs direcionados e também estiver usando o arquivo JSON run instances override, é possível que você não tenha o arquivo JSON formatado corretamente. Você pode ver um erro em clustermgtd.log, como o seguinte:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

Valide se o formato de arquivo JSON está correto executando o seguinte:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

Ver Found RunInstances parameters override. em clustermgtd.log quando a criação do cluster falhou ou em slurm_resume.log quando o trabalho de execução falhou

Se você estiver usando o arquivo JSON de substituição de instâncias de execução, verifique se definiu corretamente o nome da fila e o nome dos recursos de computação no arquivo /opt/slurm/etc/pcluster/run_instances_overrides.json.

Ver An error occurred (InsufficientInstanceCapacity) no slurm_resume.log quando não consegui executar um trabalho ou em clustermgtd.log quando eu não consigo criar um cluster

Usando PG-ODCR (grupo de posicionamento ODCR)

Ao criar um ODCR com um grupo de posicionamento associado, o mesmo nome do grupo de posicionamento deve ser usado no arquivo de configuração. Defina o nome do grupo de posicionamento correspondente na configuração do cluster.

Usar instâncias reservadas zonais

Se você estiver usando instâncias reservadas zonais com PlacementGroup / Enabled para true na configuração do cluster, poderá ver um erro, como o seguinte:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

Você pode vê-lo porque as instâncias reservadas zonais não são colocadas na mesma UC (ou coluna), o que pode causar erros de capacidade insuficientes (ICEs) ao usar grupos de posicionamento. Você pode verificar esse caso desativando a configuração de GrupoPlacementGroup na configuração do cluster para determinar se o cluster pode alocar as instâncias.

Ver An error occurred (VcpuLimitExceeded) no slurm_resume.log quando não consegui executar um trabalho ou em clustermgtd.log quando eu não consigo criar um cluster

Verifique os limites de vCPU em sua conta para o tipo específico de instância do Amazon EC2 que você está usando. Se você ver zero ou menos vCPUs do que está solicitando, solicite um aumento para seus limites. Para obter informações sobre como visualizar os limites atuais e solicitar novos limites, consulte as cotas de serviço do Amazon EC2 no Guia do usuário do Amazon EC2.

Ver An error occurred (InsufficientInstanceCapacity) no slurm_resume.log quando não consegui executar um trabalho ou em clustermgtd.log quando eu não consigo criar um cluster

Você está enfrentando um problema de capacidade insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar o problema.

Vendo que os nós estão em estado DOWN com Reason (Code:InsufficientInstanceCapacity)...

Você está enfrentando um problema de capacidade insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/para solucionar o problema. Para obter mais informações sobre o modo AWS ParallelCluster de failover rápido de capacidade insuficiente, consulte. Failover rápido de capacidade insuficiente do cluster Slurm

Vendo cannot change locale (en_US.utf-8) because it has an invalid name em slurm_resume.log

Isso pode ocorrer se você tiver um processo de instalação do yum malsucedido que deixou as configurações de localidade em um estado inconsistente. Por exemplo, isso pode ser causado quando um usuário encerra o processo de instalação.

Para verificar a causa, realize as seguintes ações:
  • Executar su - pcluster-admin.

    O shell mostra um erro, como cannot change locale...no such file or directory.

  • Executar localedef --list.

    Retorna uma lista vazia ou não contém a localidade padrão.

  • Verifique o último comando yum com yum history e yum history info #ID. O último ID tem Return-Code: Success?

    Se a última ID não tiver Return-Code: Success, os scripts de pós-instalação podem não ter sido executados com êxito.

Para corrigir o problema, tente reconstruir a localidade com yum reinstall glibc-all-langpacks. Após a reconstrução, su - pcluster-admin não mostra um erro ou aviso se o problema foi corrigido.

Nenhum dos cenários anteriores se aplica à minha situação

Para solucionar problemas de inicialização do nó de computação, consulte Solução de problemas de inicialização do nó.

Verifique se seu cenário está abordado em Problemas GitHub conhecidos em AWS ParallelCluster on GitHub.

Para obter suporte adicional, consulte Suporte adicional.