Solução de problemas do plug-in de filtro Slurm CLI no PCS AWS - AWS PCS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Solução de problemas do plug-in de filtro Slurm CLI no PCS AWS

Use essas informações de solução de problemas para resolver problemas comuns do CLI Filter Plugin.

O envio do trabalho falha imediatamente com erro de carregamento do plug-in

Sintomas: os usuários recebem mensagens de erro sobre o plug-in de filtro CLI ausente ou com falha ao enviar trabalhos.

Causas possíveis:

  • O script do plug-in de filtro CLI está ausente em um ou mais nós

  • Nome do arquivo de script incorreto (deve ser exatamente) cli_filter.lua

  • Script implantado no caminho errado do diretório

  • O script tem permissões de arquivo incorretas

Resolução:

  • Verifique se o script existe /etc/aws/pcs/scheduler/slurm-<version>/cli_filter.lua em todos os nós de login e computação

  • Verifique se o nome do arquivo do script é exatamente cli_filter.lua

  • Certifique-se de que o script tenha permissões legíveis (644 ou similar)

  • Teste a implantação do script em um único nó de login antes da implantação em todo o cluster

A criação do cluster falha com erro de validação do CLI Filter Plugin

Sintomas: A criação do cluster falha com um erro sobre um CliFilterPlugins parâmetro inválido.

Causas possíveis:

  • Formato incorreto do valor do parâmetro em slurmCustomSettings

  • Erro de digitação no nome ou valor do parâmetro

Resolução:

  • Use o nome exato do parâmetro: CliFilterPlugins

  • Use o valor exato do parâmetro: cli_filter/lua

  • Verifique a sintaxe JSON na matriz slurmCustomSettings

O script do plug-in de filtro CLI é executado, mas a validação do trabalho não funciona conforme o esperado

Sintomas: os trabalhos são enviados com sucesso, mas a lógica de validação personalizada não aciona nem produz resultados inesperados.

Causas possíveis:

  • Erros de sintaxe do script Lua

  • Padrões de acesso de campo incorretos (usando a sintaxe do Job Submit Plugin em vez do CLI Filter Plugin)

  • Erros lógicos nas condições de validação

Resolução:

  • Verifique se há erros de sintaxe no script Lua

  • Verifique se o acesso ao campo usa options["field_name"] formato em vez de job_desc.field_name

  • Adicione instruções de registro para depurar o fluxo de execução do script

  • Teste primeiro a lógica do script com casos de validação simples

Falha na implantação do script S3

Sintomas: as instâncias são iniciadas, mas o script do CLI Filter Plugin não é baixado do S3.

Causas possíveis:

  • O perfil da instância do IAM não tem permissões de leitura do S3

  • Endpoint VPC S3 não configurado

  • Caminho incorreto do bucket ou objeto do S3 nos dados do usuário

Resolução:

  • Verifique se o perfil da instância do IAM tem s3:GetObject permissão para seu bucket

  • Configurar o endpoint do S3 VPC Gateway para acesso direto

  • Verifique o nome do bucket S3 e o caminho do objeto no script de dados do usuário

  • Analise os registros de dados do usuário da instância em busca de erros de download do S3