clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster プロセス

このセクションは、Slurm でデプロイされたクラスターに適用されます。このスケジューラで使用すると、は基盤となるジョブスケジューラと AWS ParallelCluster やり取りして、コンピューティングノードのプロビジョニングと削除を管理します。

に基づく HPC クラスターの場合 AWS Batch、はコンピューティングノードを管理する AWS Batch ためにが提供する機能 AWS ParallelCluster に依存します。

`clustermgtd`

クラスター管理デーモン (clustermgtd) は、次のタスクを実行します。

非アクティブなパーティションをクリーンアップする
キャパシティブロックに関連付けられたSlurm予約とノードを管理する (次のセクションを参照）
静的容量を管理して、常に稼働し、正常であることを確認する
スケジューラを Amazon EC2 と同期します。
孤立したインスタンスをクリーンアップする
停止ワークフローの外部で発生した Amazon EC2 終了時にスケジューラノードのステータスを復元する
異常な Amazon EC2 インスタンス (Amazon EC2 ヘルスチェックに合格しないインスタンス) を管理する
スケジュールされたメンテナンスイベントを管理する
異常なスケジューラノード (スケジューラのヘルスチェックに失敗したノード) を管理する

キャパシティブロックに関連付けられたSlurm予約とノードの管理

ParallelCluster は、オンデマンドキャパシティ予約 (ODCR) と機械学習用キャパシティブロック (CB) をサポートしています。ODCR とは異なり、CB は将来の開始時間を持つ場合があり、期限があります。

clustermgtd はループ内の異常なノードを検索し、ダウンしている Amazon EC2 インスタンスをすべて終了し、静的ノードの場合は新しいインスタンスに置き換えます。

AWS ParallelCluster はキャパシティブロックに関連付けられた静的ノードを異なる方法で管理します。CB がまだアクティブでなくてもクラスターを作成し、CB がアクティブになるとインスタンスを自動的に起動します。

まだアクティブでない CBs に関連付けられたコンピューティングリソースに対応するSlurmノードは、CB 開始時刻に達するまでメンテナンス状態のままになります。これらのSlurmノードは、Slurm管理者ユーザーに関連付けられた予約/メンテナンス状態のままです。つまり、ジョブを受け入れることができますが、Slurm予約が削除されるまでジョブは保留中のままです。

clustermgtd は自動的にSlurm予約を作成または削除します。これにより、関連する CB ノードが CB 状態に基づいてメンテナンス状態になります。CB がアクティブになると、Slurm予約が削除され、ノードは開始され、保留中のジョブまたは新しいジョブ送信で使用可能になります。

CB 終了時刻に達すると、ノードは予約/メンテナンス状態に戻ります。CB がアクティブでなくなり、インスタンスが終了したときに、ジョブを新しいキュー/コンピューティングリソースに再送信/再クエリするかどうかは、ユーザー次第です。

`clusterstatusmgtd`

クラスターステータス管理デーモン (clusterstatusmgtd) は、コンピューティングフリートのステータス更新を管理します。DynamoDB テーブルに保存されているフリートのステータスを毎分取得し、すべての STOP/START リクエストを管理します。

`computemgtd`

コンピューティング管理デーモン (computemgtd) プロセスは、各クラスターコンピューティングノードで実行されます。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

の AWS ParallelCluster 仕組み

AWS が使用するサービス AWS ParallelCluster