AWS ParallelCluster 程序 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS ParallelCluster 程序

本節適用於使用部署的叢集Slurm。與此排程器搭配使用時,可透過與基礎工作排程器互動來 AWS ParallelCluster 管理計算節點佈建和移除。

對於以下項目為基礎的 HPC 叢集 AWS Batch,則 AWS Batch 需 AWS ParallelCluster 仰賴運算節點管理所提供的功能。

clustermgtd

叢集管理常駐程式會執行下列工作。

  • 非作用中分割區清理

  • 管理與容量區塊相關聯的 Slurm 保留區和節點 (請參閱下節)

  • 靜態容量管理:確保靜態容量始終保持正常運作

  • 與 Amazon EC2 同步調度程序。

  • 清理孤立執行個體

  • 在暫停工作流程之外發生的 Amazon EC2 終止上還原排程器節點狀態

  • 不健康的 Amazon EC2 實例管理(Amazon EC2 行狀態檢查失敗)

  • 排程維護事件管理

  • 不健康的排程器節點管理 (排程器健全狀況檢查失敗

管理與容量區塊相關聯的 Slurm 保留和節點

ParallelCluster 支援 Machine Learning (CB) 的隨需容量保留 (ODCR) 和容量區塊。與 ODCR 不同,CB 可以擁有 future 的開始時間,並且具有時間限制。

Clustermgtd 會在迴圈中搜尋運作狀態不良的節點,並終止任何關閉的 EC2 執行個體,如果它們是靜態節點,則以新執行個體取代它們。

ParallelCluster 管理與容量區塊相關聯的靜態節點不同。 AWS ParallelCluster 即使 CB 尚未處於作用中狀態,仍會建立叢集,而當 CB 處於作用中狀態時,執行個體也會自動啟動。

與尚未啟動的 CBS 關聯的計算資源相對應的 Slurm 節點會保持維護狀態,直到到到達 CB 開始時間為止。Slurm 節點將保持與 slurm admin 使用者相關聯的保留/維護狀態,這意味著它們可以接受工作,但在刪除 Slurm 保留之前,作業將保持待處理狀態。

Clustermgtd 會自動建立/刪除 Slurm 保留區,並根據 CB 狀態將相關 CB 節點置於維護中。CB 處於活動狀態時,Slurm 保留將被刪除,節點將啟動並可用於待處理的工作或新的工作提交。

到達 CB 結束時間時,節點會移回保留/維護狀態。當 CB 不再處於作用中狀態且執行個體終止時,使用者可以將作業重新提交/重新報告至新佇列/運算資源。

clusterstatusmgtd

叢集狀態管理常駐程式會管理運算叢集狀態更新。每分鐘都會擷取 DynamoDB 表中儲存的叢集狀態,並管理任何停止/啟動請求。

computemgtd

計算管理常駐程式 (computemgtd) 處理序會在每個叢集運算節點上執行。計算管理常駐程式每五 (5) 分鐘就會確認頭節點可以到達且狀態良好。如果經過五 (5) 分鐘,在此期間無法到達頭節點或狀態不佳,則會關閉計算節點。