Solución de problemas con el complemento de filtro CLI de Slurm en PCS AWS - AWS PIEZAS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Solución de problemas con el complemento de filtro CLI de Slurm en PCS AWS

Utilice esta información de solución de problemas para resolver problemas comunes del complemento de filtro CLI.

El envío del trabajo falla inmediatamente y se produce un error al cargar el plugin

Síntomas: Los usuarios reciben mensajes de error sobre la falta o el error del complemento de filtro CLI al enviar trabajos.

Causas posibles:

  • Falta el script del complemento de filtro CLI en uno o más nodos

  • El nombre del archivo del script es incorrecto (debe ser exactocli_filter.lua)

  • El script se implementó en una ruta de directorio incorrecta

  • El script tiene permisos de archivo incorrectos

Solución:

  • Compruebe que el script existe /etc/aws/pcs/scheduler/slurm-<version>/cli_filter.lua en todos los nodos de inicio de sesión y procesamiento

  • Compruebe que el nombre del archivo del script sea exacto cli_filter.lua

  • Asegúrese de que el script tenga permisos de lectura (644 o similar)

  • Pruebe la implementación del script en un único nodo de inicio de sesión antes de implementarlo en todo el clúster

La creación del clúster falla debido a un error de validación del complemento de filtro CLI

Síntomas: La creación del clúster falla y se produce un error sobre un CliFilterPlugins parámetro no válido.

Causas posibles:

  • El formato del valor del parámetro es incorrecto en slurmCustomSettings

  • Escriba el nombre o el valor del parámetro

Solución:

  • Utilice el nombre exacto del parámetro: CliFilterPlugins

  • Utilice el valor exacto del parámetro: cli_filter/lua

  • Verifique la sintaxis de JSON en la slurmCustomSettings matriz

El script del complemento CLI Filter se ejecuta pero la validación del trabajo no funciona como se esperaba

Síntomas: Los trabajos se envían correctamente, pero la lógica de validación personalizada no se activa o produce resultados inesperados.

Causas posibles:

  • Errores de sintaxis del script de Lua

  • Patrones de acceso a los campos incorrectos (utilizando la sintaxis del complemento Job Submit en lugar del complemento de filtro CLI)

  • Errores lógicos en las condiciones de validación

Solución:

  • Revise el script de Lua para ver si hay errores de sintaxis

  • Compruebe que el acceso al campo utilice el options["field_name"] formato en lugar de job_desc.field_name

  • Agregue sentencias de registro para depurar el flujo de ejecución del script

  • Pruebe primero la lógica del script con casos de validación simples

La implementación del script de S3 falla

Síntomas: Las instancias se lanzan pero el script del complemento de filtro CLI no se descarga de S3.

Causas posibles:

  • El perfil de instancia de IAM carece de permisos de lectura de S3

  • El punto final de VPC de S3 no está configurado

  • La ruta del objeto o el depósito de S3 en los datos de usuario son incorrectos

Solución:

  • Comprueba que el perfil de la instancia de IAM tenga s3:GetObject permiso para tu bucket

  • Configure el punto final de la puerta de enlace de VPC S3 para el acceso directo

  • Compruebe el nombre del bucket de S3 y la ruta del objeto en el script de datos de usuario

  • Revise los registros de datos de usuario de la instancia para ver si hay errores de descarga en S3