AWS PCS의 Slurm CLI 필터 플러그인 문제 해결 - AWS PCS

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS PCS의 Slurm CLI 필터 플러그인 문제 해결

이 문제 해결 정보를 사용하여 일반적인 CLI 필터 플러그인 문제를 해결합니다.

플러그인 로드 오류와 함께 작업 제출이 즉시 실패함

증상: 작업 제출 시 CLI 필터 플러그인 누락 또는 실패에 대한 오류 메시지가 사용자에게 표시됩니다.

가능한 원인:

  • 하나 이상의 노드에서 CLI 필터 플러그인 스크립트 누락

  • 잘못된 스크립트 파일 이름(정확히 여야 함cli_filter.lua)

  • 잘못된 디렉터리 경로에 배포된 스크립트

  • 스크립트에 잘못된 파일 권한이 있음

​해결 방법:

  • 스크립트가 모든 로그인 및 컴퓨팅 노드의 /etc/aws/pcs/scheduler/slurm-<version>/cli_filter.lua에 존재하는지 확인

  • 스크립트 파일 이름이 정확한지 확인 cli_filter.lua

  • 스크립트에 읽기 가능한 권한(644 이상)이 있는지 확인합니다.

  • 전체 클러스터에 배포하기 전에 단일 로그인 노드에서 스크립트 배포 테스트

CLI 필터 플러그인 검증 오류와 함께 클러스터 생성 실패

증상: 잘못된 CliFilterPlugins 파라미터에 대한 오류로 클러스터 생성이 실패합니다.

가능한 원인:

  • 의 잘못된 파라미터 값 형식 slurmCustomSettings

  • 파라미터 이름 또는 값의 오타

​해결 방법:

  • 정확한 파라미터 이름 사용: CliFilterPlugins

  • 정확한 파라미터 값을 사용합니다. cli_filter/lua

  • slurmCustomSettings 배열에서 JSON 구문 확인

CLI 필터 플러그인 스크립트가 실행되지만 작업 검증이 예상대로 작동하지 않음

증상: 작업이 성공적으로 제출되었지만 사용자 지정 검증 로직이 트리거되지 않거나 예기치 않은 결과를 생성합니다.

가능한 원인:

  • Lua 스크립트 구문 오류

  • 잘못된 필드 액세스 패턴(CLI 필터 플러그인 대신 작업 제출 플러그인 구문 사용)

  • 검증 조건의 로직 오류

​해결 방법:

  • Lua 스크립트에서 구문 오류 검토

  • 필드 액세스가 대신 options["field_name"] 형식을 사용하는지 확인 job_desc.field_name

  • 로깅 문을 추가하여 스크립트 실행 흐름 디버그

  • 간단한 검증 사례를 먼저 사용하여 스크립트 로직 테스트

S3 스크립트 배포 실패

증상: 인스턴스가 시작되지만 CLI 필터 플러그인 스크립트가 S3에서 다운로드되지 않습니다.

가능한 원인:

  • IAM 인스턴스 프로파일에 S3 읽기 권한이 없음

  • S3 VPC 엔드포인트가 구성되지 않음

  • 사용자 데이터의 잘못된 S3 버킷 또는 객체 경로

​해결 방법:

  • IAM 인스턴스 프로파일에 버킷에 대한 s3:GetObject 권한이 있는지 확인

  • 직접 액세스를 위한 S3 VPC Gateway 엔드포인트 구성

  • 사용자 데이터 스크립트에서 S3 버킷 이름 및 객체 경로 확인

  • 인스턴스 사용자 데이터 로그에서 S3 다운로드 오류 검토