AWS PCS の Slurm バージョンのリリースノート - AWS PCS

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS PCS の Slurm バージョンのリリースノート

このトピックでは、 AWS PCS で現在サポートされている Slurm バージョンごとの重要な変更について説明します。クラスターをアップグレードするときは、古いバージョンと新しいバージョンの変更を確認することをお勧めします。

PCS AWS で実装される変更

Slurm 24.11 の詳細については、以下の出版物を参照してください。

PCS AWS で実装される変更
  • 新しい Slurm Step Manager モジュールが PCS AWS でデフォルトで有効になりました。このモジュールでは、ステップ管理を中央コントローラーからコンピューティングノードにオフロードすることで、ステップ使用率が高い環境でのシステム同時実行を大幅に改善することで、大きなメリットが得られます。この設定をサポートし、分離PrologEpilogプロセスの実行を改善するために、新しいプロログフラグ (ContainAlloc) が有効になっています。

  • コントローラーからコンピューティングノードへの階層通信を有効にすると、Slurm ノード内通信を最適化できるため、スケーラビリティとパフォーマンスが向上します。さらに、ルーティング設定では、プラグインのデフォルトのルーティングアルゴリズムではなく、コントローラーからの通信にパーティションノードリストを使用するようになり、システムの耐障害性が向上しました。

  • 新しいハッシュプラグインは、前の をHashPlugin=hash/sha3置き換えますhash/k12 plugin。これは PCS AWS クラスターでデフォルトで有効になりました。

  • Slurm コントローラーログに、 へのすべてのインバウンドリモートプロシージャコール (RPC) の拡張監査機能が含まれるようになりましたslurmctld。ログには、接続処理前の送信元アドレス、認証されたユーザー、および RPC タイプが含まれます。

Slurm 24.05 の詳細については、以下の出版物を参照してください。

PCS で変更できる Slurm AWS 設定
  • SuspendTimeデフォルトは です60。PCS AWS scaleDownIdleTimeInSeconds設定パラメータを使用して設定します。詳細については、AWS PCS API リファレンスClusterSlurmConfigurationのデータ型の scaleDownIdleTimeInSecondsパラメータを参照してください。

  • MaxJobCount および MaxArraySizeは、クラスター用に選択したサイズに基づいています。詳細については、PCS CreateCluster API AWS リファレンスの API アクションの sizeパラメータを参照してください。

  • Slurm SelectTypeParameters 設定のデフォルトは ですCR_CPU。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、「PCS CreateCluster API AWS リファレンス」の「 API アクションの slurmCustomSettingsパラメータ」およびSlurmCustomSetting」を参照してください。

  • クラスターレベルで PrologEpilog を設定できます。クラスターの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateCluster「」とSlurmCustomSetting」を参照してください。

  • コンピューティングノードグループレベルで WeightRealMemory を設定できます。コンピューティングノードグループの作成時に設定slurmCustomSettingsするための の値として指定できます。詳細については、AWS 「PCS API リファレンス」のCreateComputeNodeGroup「」とSlurmCustomSetting」を参照してください。