Solução de problemas em clusters com AWS Batch integração - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas em clusters com AWS Batch integração

Esta seção é relevante para clusters com integração com AWS Batch agendadores.

Problemas no nó principal

Você pode solucionar problemas de configuração do nó principal da mesma forma que um cluster Slurm (exceto para logs Slurm específicos). Para obter mais informações sobre esses problemas, consulte Nó principal.

Problemas de computação

AWS Batch gerencia os aspectos de escalabilidade e computação de seus serviços. Se você encontrar problemas relacionados à computação, consulte a documentação de AWS Batch solução de problemas para obter ajuda.

Falhas de trabalhos

Se um trabalho falhar, você poderá executar o comando awsbout para recuperar a saída do trabalho. Você também pode executar o awsbstat comando para obter um link para os registros de trabalhos armazenados pela Amazon CloudWatch.

Erro de tempo limite de conexão no URL do endpoint

Se trabalhos paralelos de vários nós falharem com um erro: Connect timeout on endpoint URL:

  • No log awsbout de saída, verifique se o trabalho tem vários nós paralelos à saída: Detected 3/3 compute nodes. Waiting for all compute nodes to start.

  • Verifique se a sub-rede dos nós de computação é pública.

Os trabalhos paralelos de vários nós não suportam o uso de sub-redes públicas ao serem usados em. AWS Batch AWS ParallelCluster Use uma sub-rede privada para seus nós e trabalhos de computação. Para obter mais informações, consulte Considerações sobre o ambiente de computação no Guia do usuário do AWS Batch . Para configurar uma sub-rede privada para seus nós de computação, consulte AWS ParallelCluster com programador AWS Batch.