As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Tentando criar um cluster
Ao usar a AWS ParallelCluster versão 3.5.0 e posterior para criar um cluster, e a criação de um cluster falhar com --rollback-on-failure
set tofalse
, use o comando pcluster describe-cluster CLI para obter informações de status e falha. Nesse caso, o clusterStatus
esperado da saída pcluster describe-cluster
é CREATE_FAILED
. Verifique a seção failures
na saída para encontrar failureCode
e failureReason
. Em seguida, na seção a seguir, encontre failureCode
correspondente para obter ajuda adicional na solução de problemas. Para ter mais informações, consulte pcluster describe-cluster.
Nas seções a seguir, recomendamos que você verifique os registros no nó principal, como os arquivos /var/log/cfn-init.log
e /var/log/chef-client.log
. Para obter mais informações sobre AWS ParallelCluster registros e como visualizá-los, consulte Logs principais para depuração Recuperando e preservando logs e.
Se você não tiver umfailureCode
, navegue até o AWS CloudFormation console para ver a pilha de clusters. Verifique o Status Reason
para ver se há HeadNodeWaitCondition
ou falhas em outros recursos para encontrar detalhes adicionais da falha. Para ter mais informações, consulte Veja AWS CloudFormation os eventos em CREATE_FAILED. Verifique os arquivos /var/log/cfn-init.log
e /var/log/chef-client.log
no nó principal.
failureCode
é OnNodeConfiguredExecutionFailure
-
Por que falhou?
Você forneceu um script personalizado na seção
OnNodeConfigured
do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser executado. -
Como resolver?
Verifique o arquivo
/var/log/cfn-init.log
para saber mais sobre a falha e como corrigir o problema em seu script personalizado. Perto do final desse log, você pode ver informações de execução relacionadas ao scriptOnNodeConfigured
após a mensagemRunning command runpostinstall
.
failureCode
é OnNodeConfiguredDownloadFailure
-
Por que falhou?
Você forneceu um script personalizado na seção
OnNodeConfigured
do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser baixado. -
Como resolver?
Verifique se o URL é válido e se o acesso está configurado corretamente. Para obter mais informações sobre a configuração de scripts de bootstrap personalizados, consulte Ações de bootstrap personalizadas.
Verifique o arquivo
/var/log/cfn-init.log
. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do scriptOnNodeConfigured
, incluindo download, após a mensagemRunning command runpostinstall
.
failureCode
é OnNodeConfiguredFailure
-
Por que falhou?
Você forneceu um script personalizado na seção
OnNodeConfigured
do nó principal na configuração para criar um cluster. No entanto, o uso do script personalizado falhou na implantação do cluster. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional. -
Como resolver?
Verifique o arquivo
/var/log/cfn-init.log
. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do scriptOnNodeConfigured
após a mensagemRunning command runpostinstall
.
failureCode
é OnNodeStartExecutionFailure
-
Por que falhou?
Você forneceu um script personalizado na seção
OnNodeStart
do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser executado. -
Como resolver?
Verifique o arquivo
/var/log/cfn-init.log
para saber mais sobre a falha e como corrigir o problema em seu script personalizado. Perto do final desse log, você pode ver informações de execução relacionadas ao scriptOnNodeStart
após a mensagemRunning command runpreinstall
.
failureCode
é OnNodeStartDownloadFailure
-
Por que falhou?
Você forneceu um script personalizado na seção
OnNodeStart
do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser baixado. -
Como resolver?
Verifique se o URL é válido e se o acesso está configurado corretamente. Para obter mais informações sobre a configuração de scripts de bootstrap personalizados, consulte Ações de bootstrap personalizadas.
Verifique o arquivo
/var/log/cfn-init.log
. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do scriptOnNodeStart
, incluindo download, após a mensagemRunning command runpreinstall
.
failureCode
é OnNodeStartFailure
-
Por que falhou?
Você forneceu um script personalizado no
OnNodeStart
da seção do nó principal na configuração para criar um cluster. No entanto, o uso do script personalizado falhou na implantação do cluster. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional. -
Como resolver?
Verifique o arquivo
/var/log/cfn-init.log
. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do scriptOnNodeStart
após a mensagemRunning command runpreinstall
.
failureCode
é EbsMountFailure
-
Por que falhou?
Falha na montagem do volume do EBS definido na configuração do cluster.
-
Como resolver?
Verifique o arquivo
/var/log/chef-client.log
para ver os detalhes da falha.
failureCode
é EfsMountFailure
-
Por que falhou?
Falha na montagem do volume do Amazon EFS definido na configuração do cluster.
-
Como resolver?
Se você definiu um sistema de arquivos Amazon EFS existente, certifique-se de que o tráfego seja permitido entre o cluster e o sistema de arquivos. Para obter mais informações, consulte SharedStorage / EfsSettings / FileSystemId.
Verifique o arquivo
/var/log/chef-client.log
para ver os detalhes da falha.
failureCode
é FsxMountFailure
-
Por que falhou?
O sistema de arquivos Amazon FSx definido na configuração do cluster falhou na montagem.
-
Como resolver?
Se você definiu um sistema de arquivos Amazon FSx existente, certifique-se de que o tráfego seja permitido entre o cluster e o sistema de arquivos. Para obter mais informações, consulte SharedStorage / FsxLustreSettings / FileSystemId.
Verifique o arquivo
/var/log/chef-client.log
para ver os detalhes da falha.
failureCode
é RaidMountFailure
-
Por que falhou?
Falha na montagem dos volumes RAID definidos na configuração do cluster.
-
Como resolver?
Verifique o arquivo
/var/log/chef-client.log
para ver os detalhes da falha.
failureCode
é AmiVersionMismatch
-
Por que falhou?
A AWS ParallelCluster versão usada para criar a AMI personalizada é diferente da AWS ParallelCluster versão usada para configurar o cluster. No CloudFormation console, visualize os detalhes da CloudFormation pilha de clusters e verifique o
Status Reason
HeadNodeWaitCondition
para obter detalhes adicionais sobre AWS ParallelCluster as versões e a AMI. Para ter mais informações, consulte Veja AWS CloudFormation os eventos em CREATE_FAILED. -
Como resolver?
Certifique-se de que a AWS ParallelCluster versão usada para criar a AMI personalizada seja a mesma AWS ParallelCluster usada para configurar o cluster. Você pode alterar a versão personalizada da AMI ou a versão da CLI
pcluster
para torná-las iguais.
failureCode
é InvalidAmi
-
Por que falhou?
A AMI personalizada é inválida porque não foi criada usando o. AWS ParallelCluster
-
Como resolver?
Use o comando
pcluster build-image
para criar uma AMI transformando sua AMI na imagem principal. Para ter mais informações, consulte pcluster build-image.
failureCode
é uma HeadNodeBootstrapFailure
com failureReason
Falha na configuração do nó principal.
-
Por que falhou?
Uma causa imediata não pode ser determinada e é necessária uma investigação adicional. Por exemplo, pode ser que o cluster esteja em status protegido, e isso pode ser causado por uma falha no provisionamento da frota de computação estática.
-
Como resolver?
Verifique o arquivo
/var/log/chef-client.log.
para ver os detalhes da falha.nota
Se você vir
RuntimeError
com uma exceçãoCluster state has been set to PROTECTED mode due to failures detected in static node provisioning
, o cluster está no status protegido. Para ter mais informações, consulte Como depurar o modo protegido.
failureCode
é uma HeadNodeBootstrapFailure
com failureReason
de tempo limite de criação do cluster.
-
Por que falhou?
Por padrão, há um limite de tempo de 30 minutos para a conclusão da criação do cluster. Se a criação do cluster não for concluída dentro desse período, a criação do cluster falhará com um erro de tempo limite. A criação do cluster pode atingir o tempo limite por diferentes motivos. Por exemplo, falhas de tempo limite podem ser causadas por uma falha na criação do nó principal, um problema de rede, scripts personalizados que demoram muito para serem executados no nó principal, um erro em um script personalizado executado nos nós de computação ou longos tempos de espera para o provisionamento do nó de computação. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.
-
Como resolver?
Verifique os arquivos
/var/log/cfn-init.log
e/var/log/chef-client.log
para ver os detalhes da falha. Para obter mais informações sobre logs AWS ParallelCluster e como obtê-los, consulte Logs principais para depuração e Recuperando e preservando logs.Você pode descobrir o seguinte nesses logs.
-
Vendo
Waiting for static fleet capacity provisioning
perto do final dochef-client.log
Isso indica que a criação do cluster atingiu o tempo limite ao aguardar a inicialização dos nós estáticos. Para ter mais informações, consulte Vendo erros nas inicializações dos nós de computação.
-
A visualização do script do nó principal
OnNodeConfigured
ouOnNodeStart
não foi concluído no final docfn-init.log
Isso indica que o script personalizado
OnNodeConfigured
ou oOnNodeStart
demorou muito para ser executado e causou um erro de tempo limite. Verifique se há problemas no script personalizado que podem fazer com que ele seja executado por um longo tempo. Se o script personalizado exigir muito tempo para ser executado, considere alterar o limite de tempo limite adicionando uma seçãoDevSettings
ao arquivo de configuração do cluster, conforme mostrado no exemplo a seguir:DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
-
Não consigo encontrar os logs ou o nó principal não foi criado com sucesso
É possível que o nó principal não tenha sido criado com sucesso e que os logs não possam ser encontrados. No CloudFormation console, visualize os detalhes da pilha do cluster para verificar detalhes adicionais da falha.
-
failureCode
é uma HeadNodeBootstrapFailure
com failureReason
de Falha no bootstrap do nó principal.
-
Por que falhou?
Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.
-
Como resolver?
Verifique os arquivos
/var/log/cfn-init.log
e/var/log/chef-client.log
.
failureCode
é ResourceCreationFailure
-
Por que falhou?
A criação de alguns recursos falhou durante o processo de criação do cluster. A falha pode ocorrer por vários motivos. Por exemplo, falhas na criação de recursos podem ser causadas por problemas de capacidade ou por uma política de IAM mal configurada.
-
Como resolver?
No CloudFormation console, visualize a pilha do cluster para verificar detalhes adicionais da falha na criação de recursos.
failureCode
é ClusterCreationFailure
-
Por que falhou?
Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.
-
Como resolver?
No CloudFormation console, visualize a pilha do cluster e verifique a
Status Reason
HeadNodeWaitCondition
para encontrar detalhes adicionais da falha.Verifique os arquivos
/var/log/cfn-init.log
e/var/log/chef-client.log
.
Vendo WaitCondition timed out...
na CloudFormation pilha
Para ter mais informações, consulte failureCode é uma HeadNodeBootstrapFailure com failureReason de tempo limite de criação do cluster..
Vendo Resource creation cancelled
na CloudFormation pilha
Para ter mais informações, consulte failureCode é ResourceCreationFailure.
Failed to run cfn-init...
Visualização ou outros erros na AWS CloudFormation pilha
Verifique /var/log/cfn-init.log
e /var/log/chef-client.log
para ver os detalhes adicionais da falha.
Visualizando chef-client.log
que termina com INFO: Waiting for static fleet capacity provisioning
Isso está relacionado ao tempo limite de criação do cluster ao aguardar a inicialização dos nós estáticos. Para ter mais informações, consulte Vendo erros nas inicializações dos nós de computação.
Vendo Failed to run preinstall or postinstall in cfn-init.log
Você tem um script OnNodeConfigured
ou OnNodeStart
na seção HeadNode
de configuração do cluster. O script não está funcionando corretamente. Verifique o arquivo /var/log/cfn-init.log
para ver os detalhes do erro do script personalizado.
Vendo This AMI was created with xxx, but is trying to be used with xxx...
na CloudFormation pilha
Para ter mais informações, consulte failureCode é AmiVersionMismatch.
Vendo This AMI was not baked by AWS ParallelCluster...
na CloudFormation pilha
Para ter mais informações, consulte failureCode é InvalidAmi.
Vendo que o comando pcluster create-cluster
falha ao ser executado localmente
Verifique o ~/.parallelcluster/pcluster-cli.log
em seu sistema de arquivos local para ver os detalhes da falha.
Suporte adicional
Siga as orientações de solução de problemas em Solução de problemas de implantação de cluster.
Verifique se seu cenário está abordado em Problemas GitHub conhecidos
Para obter suporte adicional, consulte Suporte adicional.