Tentando criar um cluster - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Tentando criar um cluster

Ao usar a AWS ParallelCluster versão 3.5.0 e posterior para criar um cluster, e a criação de um cluster falhar com --rollback-on-failure set tofalse, use o comando pcluster describe-cluster CLI para obter informações de status e falha. Nesse caso, o clusterStatus esperado da saída pcluster describe-cluster é CREATE_FAILED. Verifique a seção failures na saída para encontrar failureCode e failureReason. Em seguida, na seção a seguir, encontre failureCode correspondente para obter ajuda adicional na solução de problemas. Para ter mais informações, consulte pcluster describe-cluster.

Nas seções a seguir, recomendamos que você verifique os registros no nó principal, como os arquivos /var/log/cfn-init.log e /var/log/chef-client.log. Para obter mais informações sobre AWS ParallelCluster registros e como visualizá-los, consulte Logs principais para depuração Recuperando e preservando logs e.

Se você não tiver umfailureCode, navegue até o AWS CloudFormation console para ver a pilha de clusters. Verifique o Status Reason para ver se há HeadNodeWaitCondition ou falhas em outros recursos para encontrar detalhes adicionais da falha. Para ter mais informações, consulte Veja AWS CloudFormation os eventos em CREATE_FAILED. Verifique os arquivos /var/log/cfn-init.log e /var/log/chef-client.log no nó principal.

failureCode é OnNodeConfiguredExecutionFailure

  • Por que falhou?

    Você forneceu um script personalizado na seção OnNodeConfigured do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser executado.

  • Como resolver?

    Verifique o arquivo /var/log/cfn-init.log para saber mais sobre a falha e como corrigir o problema em seu script personalizado. Perto do final desse log, você pode ver informações de execução relacionadas ao script OnNodeConfigured após a mensagem Running command runpostinstall.

failureCode é OnNodeConfiguredDownloadFailure

  • Por que falhou?

    Você forneceu um script personalizado na seção OnNodeConfigured do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser baixado.

  • Como resolver?

    Verifique se o URL é válido e se o acesso está configurado corretamente. Para obter mais informações sobre a configuração de scripts de bootstrap personalizados, consulte Ações de bootstrap personalizadas.

    Verifique o arquivo /var/log/cfn-init.log. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do script OnNodeConfigured, incluindo download, após a mensagem Running command runpostinstall.

failureCode é OnNodeConfiguredFailure

  • Por que falhou?

    Você forneceu um script personalizado na seção OnNodeConfigured do nó principal na configuração para criar um cluster. No entanto, o uso do script personalizado falhou na implantação do cluster. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.

  • Como resolver?

    Verifique o arquivo /var/log/cfn-init.log. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do script OnNodeConfigured após a mensagem Running command runpostinstall.

failureCode é OnNodeStartExecutionFailure

  • Por que falhou?

    Você forneceu um script personalizado na seção OnNodeStart do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser executado.

  • Como resolver?

    Verifique o arquivo /var/log/cfn-init.log para saber mais sobre a falha e como corrigir o problema em seu script personalizado. Perto do final desse log, você pode ver informações de execução relacionadas ao script OnNodeStart após a mensagem Running command runpreinstall.

failureCode é OnNodeStartDownloadFailure

  • Por que falhou?

    Você forneceu um script personalizado na seção OnNodeStart do nó principal na configuração para criar um cluster. No entanto, o script personalizado falhou ao ser baixado.

  • Como resolver?

    Verifique se o URL é válido e se o acesso está configurado corretamente. Para obter mais informações sobre a configuração de scripts de bootstrap personalizados, consulte Ações de bootstrap personalizadas.

    Verifique o arquivo /var/log/cfn-init.log. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do script OnNodeStart, incluindo download, após a mensagem Running command runpreinstall.

failureCode é OnNodeStartFailure

  • Por que falhou?

    Você forneceu um script personalizado no OnNodeStart da seção do nó principal na configuração para criar um cluster. No entanto, o uso do script personalizado falhou na implantação do cluster. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.

  • Como resolver?

    Verifique o arquivo /var/log/cfn-init.log. Perto do final desse log, você pode ver informações de execução relacionadas ao processamento do script OnNodeStart após a mensagem Running command runpreinstall.

failureCode é EbsMountFailure

  • Por que falhou?

    Falha na montagem do volume do EBS definido na configuração do cluster.

  • Como resolver?

    Verifique o arquivo /var/log/chef-client.log para ver os detalhes da falha.

failureCode é EfsMountFailure

  • Por que falhou?

    Falha na montagem do volume do Amazon EFS definido na configuração do cluster.

  • Como resolver?

    Se você definiu um sistema de arquivos Amazon EFS existente, certifique-se de que o tráfego seja permitido entre o cluster e o sistema de arquivos. Para obter mais informações, consulte SharedStorage / EfsSettings / FileSystemId.

    Verifique o arquivo /var/log/chef-client.log para ver os detalhes da falha.

failureCode é FsxMountFailure

  • Por que falhou?

    O sistema de arquivos Amazon FSx definido na configuração do cluster falhou na montagem.

  • Como resolver?

    Se você definiu um sistema de arquivos Amazon FSx existente, certifique-se de que o tráfego seja permitido entre o cluster e o sistema de arquivos. Para obter mais informações, consulte SharedStorage / FsxLustreSettings / FileSystemId.

    Verifique o arquivo /var/log/chef-client.log para ver os detalhes da falha.

failureCode é RaidMountFailure

  • Por que falhou?

    Falha na montagem dos volumes RAID definidos na configuração do cluster.

  • Como resolver?

    Verifique o arquivo /var/log/chef-client.log para ver os detalhes da falha.

failureCode é AmiVersionMismatch

  • Por que falhou?

    A AWS ParallelCluster versão usada para criar a AMI personalizada é diferente da AWS ParallelCluster versão usada para configurar o cluster. No CloudFormation console, visualize os detalhes da CloudFormation pilha de clusters e verifique o Status Reason HeadNodeWaitCondition para obter detalhes adicionais sobre AWS ParallelCluster as versões e a AMI. Para ter mais informações, consulte Veja AWS CloudFormation os eventos em CREATE_FAILED.

  • Como resolver?

    Certifique-se de que a AWS ParallelCluster versão usada para criar a AMI personalizada seja a mesma AWS ParallelCluster usada para configurar o cluster. Você pode alterar a versão personalizada da AMI ou a versão da CLI pcluster para torná-las iguais.

failureCode é InvalidAmi

  • Por que falhou?

    A AMI personalizada é inválida porque não foi criada usando o. AWS ParallelCluster

  • Como resolver?

    Use o comando pcluster build-image para criar uma AMI transformando sua AMI na imagem principal. Para ter mais informações, consulte pcluster build-image.

failureCode é uma HeadNodeBootstrapFailure com failureReason Falha na configuração do nó principal.

  • Por que falhou?

    Uma causa imediata não pode ser determinada e é necessária uma investigação adicional. Por exemplo, pode ser que o cluster esteja em status protegido, e isso pode ser causado por uma falha no provisionamento da frota de computação estática.

  • Como resolver?

    Verifique o arquivo /var/log/chef-client.log. para ver os detalhes da falha.

    nota

    Se você vir RuntimeError com uma exceçãoCluster state has been set to PROTECTED mode due to failures detected in static node provisioning, o cluster está no status protegido. Para ter mais informações, consulte Como depurar o modo protegido.

failureCode é uma HeadNodeBootstrapFailure com failureReason de tempo limite de criação do cluster.

  • Por que falhou?

    Por padrão, há um limite de tempo de 30 minutos para a conclusão da criação do cluster. Se a criação do cluster não for concluída dentro desse período, a criação do cluster falhará com um erro de tempo limite. A criação do cluster pode atingir o tempo limite por diferentes motivos. Por exemplo, falhas de tempo limite podem ser causadas por uma falha na criação do nó principal, um problema de rede, scripts personalizados que demoram muito para serem executados no nó principal, um erro em um script personalizado executado nos nós de computação ou longos tempos de espera para o provisionamento do nó de computação. Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.

  • Como resolver?

    Verifique os arquivos /var/log/cfn-init.log e /var/log/chef-client.log para ver os detalhes da falha. Para obter mais informações sobre logs AWS ParallelCluster e como obtê-los, consulte Logs principais para depuração e Recuperando e preservando logs.

    Você pode descobrir o seguinte nesses logs.

    • Vendo Waiting for static fleet capacity provisioning perto do final do chef-client.log

      Isso indica que a criação do cluster atingiu o tempo limite ao aguardar a inicialização dos nós estáticos. Para ter mais informações, consulte Vendo erros nas inicializações dos nós de computação.

    • A visualização do script do nó principal OnNodeConfigured ou OnNodeStart não foi concluído no final do cfn-init.log

      Isso indica que o script personalizado OnNodeConfigured ou o OnNodeStart demorou muito para ser executado e causou um erro de tempo limite. Verifique se há problemas no script personalizado que podem fazer com que ele seja executado por um longo tempo. Se o script personalizado exigir muito tempo para ser executado, considere alterar o limite de tempo limite adicionando uma seção DevSettings ao arquivo de configuração do cluster, conforme mostrado no exemplo a seguir:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • Não consigo encontrar os logs ou o nó principal não foi criado com sucesso

      É possível que o nó principal não tenha sido criado com sucesso e que os logs não possam ser encontrados. No CloudFormation console, visualize os detalhes da pilha do cluster para verificar detalhes adicionais da falha.

failureCode é uma HeadNodeBootstrapFailure com failureReason de Falha no bootstrap do nó principal.

  • Por que falhou?

    Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.

  • Como resolver?

    Verifique os arquivos /var/log/cfn-init.log e /var/log/chef-client.log.

failureCode é ResourceCreationFailure

  • Por que falhou?

    A criação de alguns recursos falhou durante o processo de criação do cluster. A falha pode ocorrer por vários motivos. Por exemplo, falhas na criação de recursos podem ser causadas por problemas de capacidade ou por uma política de IAM mal configurada.

  • Como resolver?

    No CloudFormation console, visualize a pilha do cluster para verificar detalhes adicionais da falha na criação de recursos.

failureCode é ClusterCreationFailure

  • Por que falhou?

    Uma causa imediata não pode ser determinada e é necessária uma investigação adicional.

  • Como resolver?

    No CloudFormation console, visualize a pilha do cluster e verifique a Status Reason HeadNodeWaitCondition para encontrar detalhes adicionais da falha.

    Verifique os arquivos /var/log/cfn-init.log e /var/log/chef-client.log.

Vendo WaitCondition timed out... na CloudFormation pilha

Para ter mais informações, consulte failureCode é uma HeadNodeBootstrapFailure com failureReason de tempo limite de criação do cluster..

Vendo Resource creation cancelled na CloudFormation pilha

Para ter mais informações, consulte failureCode é ResourceCreationFailure.

Failed to run cfn-init...Visualização ou outros erros na AWS CloudFormation pilha

Verifique /var/log/cfn-init.log e /var/log/chef-client.log para ver os detalhes adicionais da falha.

Visualizando chef-client.log que termina com INFO: Waiting for static fleet capacity provisioning

Isso está relacionado ao tempo limite de criação do cluster ao aguardar a inicialização dos nós estáticos. Para ter mais informações, consulte Vendo erros nas inicializações dos nós de computação.

Vendo Failed to run preinstall or postinstall in cfn-init.log

Você tem um script OnNodeConfigured ou OnNodeStart na seção HeadNode de configuração do cluster. O script não está funcionando corretamente. Verifique o arquivo /var/log/cfn-init.log para ver os detalhes do erro do script personalizado.

Vendo This AMI was created with xxx, but is trying to be used with xxx... na CloudFormation pilha

Para ter mais informações, consulte failureCode é AmiVersionMismatch.

Vendo This AMI was not baked by AWS ParallelCluster... na CloudFormation pilha

Para ter mais informações, consulte failureCode é InvalidAmi.

Vendo que o comando pcluster create-cluster falha ao ser executado localmente

Verifique o ~/.parallelcluster/pcluster-cli.log em seu sistema de arquivos local para ver os detalhes da falha.

Suporte adicional

Siga as orientações de solução de problemas em Solução de problemas de implantação de cluster.

Verifique se seu cenário está abordado em Problemas GitHub conhecidos em AWS ParallelCluster on GitHub.

Para obter suporte adicional, consulte Suporte adicional.