PCS での Slurm CLI AWS フィルタープラグインの問題のトラブルシューティング - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

PCS での Slurm CLI AWS フィルタープラグインの問題のトラブルシューティング

このトラブルシューティング情報を使用して、一般的な CLI フィルタープラグインの問題を解決します。

プラグインのロードエラーによりジョブの送信がすぐに失敗する

症状: ジョブを送信すると、ユーザーは CLI フィルタプラグインの欠落または失敗に関するエラーメッセージを受け取ります。

考えられる原因:

  • CLI フィルタプラグインスクリプトが 1 つ以上のノードにありません

  • スクリプトファイル名が正しくない (正確に である必要がありますcli_filter.lua)

  • 間違ったディレクトリパスにデプロイされたスクリプト

  • スクリプトのファイルアクセス許可が正しくない

解決策:

  • スクリプトがすべてのログインノードとコンピューティングノード/etc/aws/pcs/scheduler/slurm-<version>/cli_filter.luaに存在することを確認する

  • スクリプトファイル名が正確であることを確認する cli_filter.lua

  • スクリプトに読み取り可能なアクセス許可 (644 など) があることを確認する

  • フルクラスターにデプロイする前に、単一のログインノードでスクリプトのデプロイをテストする

クラスターの作成が CLI フィルタープラグインの検証エラーで失敗する

症状: クラスターの作成が失敗し、無効なCliFilterPluginsパラメータに関するエラーが発生します。

考えられる原因:

  • のパラメータ値の形式が正しくない slurmCustomSettings

  • パラメータ名または値のタイプミス

解決策:

  • 正確なパラメータ名を使用します。 CliFilterPlugins

  • 正確なパラメータ値を使用します。 cli_filter/lua

  • slurmCustomSettings 配列で JSON 構文を検証する

CLI フィルタープラグインスクリプトは実行されますが、ジョブの検証は期待どおりに機能しません

症状: ジョブは正常に送信されますが、カスタム検証ロジックはトリガーされず、予期しない結果を生成しません。

考えられる原因:

  • Lua スクリプト構文エラー

  • フィールドアクセスパターンが正しくない (CLI フィルタープラグインの代わりにジョブ送信プラグイン構文を使用)

  • 検証条件のロジックエラー

解決策:

  • Lua スクリプトで構文エラーを確認する

  • フィールドアクセスが ではなく options["field_name"]形式を使用していることを確認する job_desc.field_name

  • スクリプト実行フローをデバッグするためのログ記録ステートメントの追加

  • シンプルな検証ケースを最初に使用してスクリプトロジックをテストする

S3 スクリプトのデプロイが失敗する

症状: インスタンスは起動しますが、CLI Filter Plugin スクリプトは S3 からダウンロードされません。

考えられる原因:

  • IAM インスタンスプロファイルに S3 読み取りアクセス許可がない

  • S3 VPC エンドポイントが設定されていません

  • ユーザーデータの S3 バケットまたはオブジェクトパスが正しくない

解決策:

  • IAM インスタンスプロファイルにバケットに対するs3:GetObjectアクセス許可があることを確認する

  • 直接アクセス用に S3 VPC Gateway エンドポイントを設定する

  • ユーザーデータスクリプトで S3 バケット名とオブジェクトパスを確認する

  • インスタンスユーザーデータログで S3 ダウンロードエラーを確認する