Problemas no nó principal Problemas de computação Falhas de trabalhos Erro de tempo limite de conexão no URL do endpoint

Solução de problemas em clusters com AWS Batch integração

Esta seção fornece possíveis dicas de solução de problemas para clusters com integração de AWS Batch agendador, especificamente com problemas de nó principal, problemas de computação, falhas de trabalho e erros de tempo limite.

Tópicos

Problemas no nó principal
Problemas de computação
Falhas de trabalhos
Erro de tempo limite de conexão no URL do endpoint

Problemas no nó principal

Você pode solucionar problemas de configuração do nó principal da mesma forma que um cluster Slurm (exceto para logs Slurm específicos). Para obter mais informações sobre esses problemas, consulte Nó principal.

Problemas de computação

AWS Batch gerencia os aspectos de escalabilidade e computação de seus serviços. Se você encontrar problemas relacionados à computação, consulte a documentação de AWS Batch solução de problemas para obter ajuda.

Falhas de trabalhos

Se um trabalho falhar, você poderá executar o comando awsbout para recuperar a saída do trabalho. Você também pode executar o awsbstat comando para obter um link para os registros de trabalhos armazenados pela Amazon CloudWatch.

Erro de tempo limite de conexão no URL do endpoint

Se trabalhos paralelos de vários nós falharem com um erro: Connect timeout on endpoint URL:

No log awsbout de saída, verifique se o trabalho tem vários nós paralelos à saída: Detected 3/3 compute nodes. Waiting for all compute nodes to start.
Verifique se a sub-rede dos nós de computação é pública.

Os trabalhos paralelos de vários nós não suportam o uso de sub-redes públicas ao serem usados em. AWS Batch AWS ParallelCluster Use uma sub-rede privada para seus nós e trabalhos de computação. Para obter mais informações, consulte Considerações sobre o ambiente de computação no Guia do usuário do AWS Batch . Para configurar uma sub-rede privada para seus nós de computação, consulte AWS ParallelCluster com AWS Batch agendador.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Solução de problemas no Amazon DCV

Solução de problemas de integração de vários usuários com o Active Directory