翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS ParallelCluster プロセス
このセクションでは、 でデプロイされたクラスターに適用されます。Slurm。 このスケジューラで使用すると、基盤となるジョブスケジューラとやり取りして、コンピューティングノードのプロビジョニングと削除 AWS ParallelCluster を管理します。
に基づくHPCクラスターの場合 AWS Batch、 AWS ParallelCluster はコンピューティングノード管理 AWS Batch のために が提供する機能に依存します。
clustermgtd
次のタスクはクラスター管理デーモンが行います。
-
非アクティブなパーティションのクリーンアップ
-
の管理 Slurm キャパシティブロックに関連付けられた予約とノード (次のセクションを参照)
-
静的容量管理: 静的な容量が常に稼働していることを確認します
-
スケジューラを Amazon EC2 と同期します。
-
孤立したインスタンスのクリーンアップ
-
一時停止ワークフローの外部で発生する Amazon EC2終了時のスケジューラノードステータスの復元
-
異常な Amazon EC2インスタンス管理 (Amazon EC2ヘルスチェックの失敗)
-
スケジュールされたメンテナンスイベントの管理
-
異常のあるスケジューラノードの管理 (スケジューラのヘルスチェックの失敗)
の管理 Slurm キャパシティブロックに関連付けられた予約とノード
ParallelCluster は、オンデマンドキャパシティ予約 (ODCR) とMachine Learning用キャパシティブロック (CB) をサポートしています。とは異なりODCR、CB には将来の開始時刻があり、期限があります。
Clustermgtd は、ループ内の異常なノードを検索し、ダウンしている Amazon EC2インスタンスをすべて終了し、静的ノードの場合は新しいインスタンスに置き換えます。
ParallelCluster は、キャパシティブロックに関連付けられた静的ノードを異なる方法で管理します。 は、CB がまだアクティブでなくてもクラスター AWS ParallelCluster を作成し、CB がアクティブになるとインスタンスが自動的に起動されます。
- Slurm に関連付けられたコンピューティングリソースに対応するノードCBsがまだアクティブでないノードは、CB 開始時刻に達するまでメンテナンスされます。Slurm ノードは、 に関連付けられた予約/メンテナンス状態のままになります。Slurm 管理者ユーザー。つまり、ジョブを受け入れることができますが、ジョブは まで保留中のままになります。Slurm 予約が削除されます。
Clustermgtd は自動的に作成/削除します Slurm 予約。関連する CB ノードを CB 状態に基づいてメンテナンスします。CB がアクティブになると、Slurm 予約が削除され、ノードが開始され、保留中のジョブまたは新しいジョブの送信で使用可能になります。
CB 終了時間に達すると、ノードは予約/メンテナンス状態に戻ります。CB がアクティブでなくなり、インスタンスが終了すると、ジョブを新しいキュー/コンピューティングリソースに再送信/クエリするかどうかは、ユーザー次第です。
clusterstatusmgtd
クラスターステータス管理デーモンは、コンピューティングフリートのステータス更新を管理します。DynamoDB テーブルに保存されているフリートステータスを 1 分ごとに取得し、STOP/START リクエストを管理します。
computemgtd
コンピューティング管理デーモン (computemgtd
) プロセスは。各クラスターのコンピューティングノードで実行されます。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。