As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Vendo erros nas inicializações dos nós de computação
Vendo Node bootstrap error
em clustermgtd.log
O problema está relacionado à falha na inicialização dos nós de computação. Para obter informações sobre como depurar um problema no modo protegido por cluster, consulte Como depurar o modo protegido.
Eu configurei reservas de capacidade sob demanda (ODCRs) ou instâncias reservadas zonais
ODCRs que incluem instâncias que têm várias interfaces de rede, como P4d, P4de e Trainium (Trn) AWS
No arquivo de configuração do cluster, verifique se o HeadNode
está em uma sub-rede pública e se os nós de computação estão em uma sub-rede privada.
Os ODCRs são ODCRs direcionados
Vendo, Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
embora eu já tenha /opt/slurm/etc/pcluster/run_instances_overrides.json
instalado, seguindo as instruções dadas em Inicie instâncias com reservas de capacidade sob demanda (ODCR)
Se você estiver usando AWS ParallelCluster as versões 3.1.1 a 3.2.1 com ODCRs direcionados e também estiver usando o arquivo JSON run instances override, é possível que você não tenha o arquivo JSON formatado corretamente. Você pode ver um erro em clustermgtd.log
, como o seguinte:
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
Valide se o formato de arquivo JSON está correto executando o seguinte:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
Ver Found RunInstances parameters override.
em clustermgtd.log
quando a criação do cluster falhou ou em slurm_resume.log
quando o trabalho de execução falhou
Se você estiver usando o arquivo JSON de substituição de instâncias de execução, verifique se definiu corretamente o nome da fila e o nome dos recursos de computação no arquivo /opt/slurm/etc/pcluster/run_instances_overrides.json
.
Ver An error occurred (InsufficientInstanceCapacity)
no slurm_resume.log
quando não consegui executar um trabalho ou em clustermgtd.log
quando eu não consigo criar um cluster
Usando PG-ODCR (grupo de posicionamento ODCR)
Ao criar um ODCR com um grupo de posicionamento associado, o mesmo nome do grupo de posicionamento deve ser usado no arquivo de configuração. Defina o nome do grupo de posicionamento correspondente na configuração do cluster.
Usar instâncias reservadas zonais
Se você estiver usando instâncias reservadas zonais com PlacementGroup
/ Enabled
para true
na configuração do cluster, poderá ver um erro, como o seguinte:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
Você pode vê-lo porque as instâncias reservadas zonais não são colocadas na mesma UC (ou coluna), o que pode causar erros de capacidade insuficientes (ICEs) ao usar grupos de posicionamento. Você pode verificar esse caso desativando a configuração de GrupoPlacementGroup
na configuração do cluster para determinar se o cluster pode alocar as instâncias.
Ver An error occurred (VcpuLimitExceeded)
no slurm_resume.log
quando não consegui executar um trabalho ou em clustermgtd.log
quando eu não consigo criar um cluster
Verifique os limites de vCPU em sua conta para o tipo específico de instância do Amazon EC2 que você está usando. Se você ver zero ou menos vCPUs do que está solicitando, solicite um aumento para seus limites. Para obter informações sobre como visualizar os limites atuais e solicitar novos limites, consulte as cotas de serviço do Amazon EC2 no Guia do usuário do Amazon EC2.
Ver An error occurred (InsufficientInstanceCapacity)
no slurm_resume.log
quando não consegui executar um trabalho ou em clustermgtd.log
quando eu não consigo criar um cluster
Você está enfrentando um problema de capacidade insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
Vendo que os nós estão em estado DOWN
com Reason (Code:InsufficientInstanceCapacity)...
Você está enfrentando um problema de capacidade insuficiente. Siga https://aws.amazon.com/premiumsupport/knowledge-center/ec2 -insufficient-capacity-errors/
Vendo cannot change locale (en_US.utf-8) because it has an invalid name
em slurm_resume.log
Isso pode ocorrer se você tiver um processo de instalação do yum
malsucedido que deixou as configurações de localidade em um estado inconsistente. Por exemplo, isso pode ser causado quando um usuário encerra o processo de instalação.
Para verificar a causa, realize as seguintes ações:
-
Executar
su - pcluster-admin
.O shell mostra um erro, como
cannot change locale...no such file or directory
. -
Executar
localedef --list
.Retorna uma lista vazia ou não contém a localidade padrão.
-
Verifique o último comando
yum
comyum history
eyum history info #ID
. O último ID temReturn-Code: Success
?Se a última ID não tiver
Return-Code: Success
, os scripts de pós-instalação podem não ter sido executados com êxito.
Para corrigir o problema, tente reconstruir a localidade com yum reinstall glibc-all-langpacks
. Após a reconstrução, su - pcluster-admin
não mostra um erro ou aviso se o problema foi corrigido.
Nenhum dos cenários anteriores se aplica à minha situação
Para solucionar problemas de inicialização do nó de computação, consulte Solução de problemas de inicialização do nó.
Verifique se seu cenário está abordado em Problemas GitHub conhecidos
Para obter suporte adicional, consulte Suporte adicional.