AWS ParallelCluster 程序 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS ParallelCluster 程序

本節適用於使用部署的叢集Slurm。與此排程器搭配使用時,可透過與基礎工作排程器互動來 AWS ParallelCluster 管理計算節點佈建和移除。

對於以下項目為基礎的 HPC 叢集 AWS Batch,則 AWS Batch 需 AWS ParallelCluster 仰賴運算節點管理所提供的功能。

clustermgtd

叢集管理常駐程式會執行下列工作。

  • 非作用中分割區清理

  • 管理與容量區塊相關聯的Slurm保留區和節點 (請參閱下節)

  • 靜態容量管理:確保靜態容量始終保持正常運作

  • 與 Amazon EC2 同步調度程序。

  • 清理孤立執行個體

  • 在暫停工作流程之外發生的 Amazon EC2 終止上還原排程器節點狀態

  • 不健康的 Amazon EC2 實例管理(Amazon EC2 行狀態檢查失敗)

  • 排程維護事件管理

  • 不健康的排程器節點管理 (排程器健全狀況檢查失敗

管理與容量區塊相關聯的Slurm保留區和節點

ParallelCluster 支援 Machine Learning (CB) 的隨需容量保留 (ODCR) 和容量區塊。與 ODCR 不同,CB 可以擁有 future 的開始時間,並且具有時間限制。

Clustermgtd 會在迴圈中搜尋運作狀態不良的節點,並終止任何關閉的 Amazon EC2 執行個體,如果它們是靜態節點,則以新執行個體取代它們。

ParallelCluster 管理與容量區塊相關聯的靜態節點不同。 AWS ParallelCluster 即使 CB 尚未處於作用中狀態,仍會建立叢集,而當 CB 處於作用中狀態時,執行個體也會自動啟動。

與尚未使用中的 CBS 相關聯的計算資源對應的Slurm節點會保持維護狀態,直到到到達 CB 開始時間為止。 Slurm節點將保持與Slurm管理員使用者相關聯的保留/維護狀態,這表示他們可以接受工作,但在移除保留項目之前,工作將保留處於擱置狀態。Slurm

Clustermgtd 會自動建立/刪除保Slurm留區,並根據 CB 狀態將相關 CB 節點置於維護中。CB 處於作用中狀態時,將移除Slurm保留區、節點將啟動,並可供擱置的工作或新工作提交使用。

到達 CB 結束時間時,節點會移回保留/維護狀態。當 CB 不再處於作用中狀態且執行個體終止時,使用者可以將工作重新提交/重新報告至新佇列/運算資源。

clusterstatusmgtd

叢集狀態管理常駐程式會管理運算叢集狀態更新。每分鐘都會擷取 DynamoDB 表格中儲存的叢集狀態,並管理任何停止/啟動請求。

computemgtd

計算管理常駐程式 (computemgtd) 處理序會在每個叢集運算節點上執行。計算管理常駐程式每五 (5) 分鐘就會確認頭節點可以連線且狀態良好。如果經過五 (5) 分鐘,在此期間無法到達頭節點或狀態不佳,則會關閉計算節點。