AWS ParallelCluster プロセス - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

AWS ParallelCluster プロセス

このセクションでは、 でデプロイされたクラスターに適用されます。Slurm。 このスケジューラで使用すると、基盤となるジョブスケジューラとやり取りして、コンピューティングノードのプロビジョニングと削除 AWS ParallelCluster を管理します。

に基づくHPCクラスターの場合 AWS Batch、 AWS ParallelCluster はコンピューティングノード管理 AWS Batch のために が提供する機能に依存します。

clustermgtd

次のタスクはクラスター管理デーモンが行います。

  • 非アクティブなパーティションのクリーンアップ

  • の管理 Slurm キャパシティブロックに関連付けられた予約とノード (次のセクションを参照)

  • 静的容量管理: 静的な容量が常に稼働していることを確認します

  • スケジューラを Amazon EC2 と同期します。

  • 孤立したインスタンスのクリーンアップ

  • 一時停止ワークフローの外部で発生する Amazon EC2終了時のスケジューラノードステータスの復元

  • 異常な Amazon EC2インスタンス管理 (Amazon EC2ヘルスチェックの失敗)

  • スケジュールされたメンテナンスイベントの管理

  • 異常のあるスケジューラノードの管理 (スケジューラのヘルスチェックの失敗)

の管理 Slurm キャパシティブロックに関連付けられた予約とノード

ParallelCluster は、オンデマンドキャパシティ予約 (ODCR) とMachine Learning用キャパシティブロック (CB) をサポートしています。とは異なりODCR、CB には将来の開始時刻があり、期限があります。

Clustermgtd は、ループ内の異常なノードを検索し、ダウンしている Amazon EC2インスタンスをすべて終了し、静的ノードの場合は新しいインスタンスに置き換えます。

ParallelCluster は、キャパシティブロックに関連付けられた静的ノードを異なる方法で管理します。 は、CB がまだアクティブでなくてもクラスター AWS ParallelCluster を作成し、CB がアクティブになるとインスタンスが自動的に起動されます。

- Slurm に関連付けられたコンピューティングリソースに対応するノードCBsがまだアクティブでないノードは、CB 開始時刻に達するまでメンテナンスされます。Slurm ノードは、 に関連付けられた予約/メンテナンス状態のままになります。Slurm 管理者ユーザー。つまり、ジョブを受け入れることができますが、ジョブは まで保留中のままになります。Slurm 予約が削除されます。

Clustermgtd は自動的に作成/削除します Slurm 予約。関連する CB ノードを CB 状態に基づいてメンテナンスします。CB がアクティブになると、Slurm 予約が削除され、ノードが開始され、保留中のジョブまたは新しいジョブの送信で使用可能になります。

CB 終了時間に達すると、ノードは予約/メンテナンス状態に戻ります。CB がアクティブでなくなり、インスタンスが終了すると、ジョブを新しいキュー/コンピューティングリソースに再送信/クエリするかどうかは、ユーザー次第です。

clusterstatusmgtd

クラスターステータス管理デーモンは、コンピューティングフリートのステータス更新を管理します。DynamoDB テーブルに保存されているフリートステータスを 1 分ごとに取得し、STOP/START リクエストを管理します。

computemgtd

コンピューティング管理デーモン (computemgtd) プロセスは。各クラスターのコンピューティングノードで実行されます。5 分ごとに、コンピューティング管理デーモンはヘッドノードに到達できること、および正常であることを確認します。5 分が経過し、ヘッドノードに到達できない、または正常でない場合、コンピューティングノードはシャットダウンされます。