本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 競價型執行個體
AWS ParallelCluster 如果您已SPOT
在叢集配置檔中將 SlurmQueues/CapacityType或 AwsBatchQueues/設定CapacityType為,則會使用 Spot 執行個體。Spot 執行個體比隨需執行個體更具成本效益,但可能會中斷。這可能有助於利用 Spot 執行個體中斷通知,該通知在 Amazon EC2 必須停止或終止 Spot 執行個體之前提供兩分鐘的警告。如需詳細資訊,請參閱 Amazon EC2 使用者指南中的競價型執行個體中斷。要了解如何使AwsBatchQueues用 Spot 執行個體,請參閱AWS Batch 使用者指南中的計算資源。
AWS ParallelCluster 設定的排程器會將任務指派給具有 Spot 執行個體之佇列中的運算資源,方式與將任務指派給具有隨需執行個體之佇列中的運算資源相同
使用 Spot 執行個體時,您的帳戶中必須有 AWSServiceRoleForEC2Spot 服務連結角色。若要使用在您的帳戶中建立此角色 AWS CLI,請執行下列命令:
$
aws iam create-service-linked-role --aws-service-name spot.amazonaws.com
如需詳細資訊,請參閱 Amazon EC2 使用者指南中的 Spot 執行個體請求的服務連結角色。
以下各節說明 Spot 執行個體在使用時可能會中斷的三種案例SlurmQueues。
案例 1:沒有執行中任務的 Spot 執行個體遭到中斷
發生此中斷時,如果排程器佇列有擱置的工作需要額外執行個體,或作用中執行個體的數目低於 SlurmQueues/ComputeResources/,則 AWS ParallelCluster 嘗試取代執行個體MinCount。如果 AWS ParallelCluster 無法佈建新執行個體,則會定期重複新執行個體的要求。
案例 2:執行單一節點任務的 Spot 執行個體遭到中斷
工作失敗,狀態碼為NODE_FAIL
,且會重新計算工作 (除--no-requeue
非在送出工作時指定)。如果節點是靜態節點,則會取代它。如果節點是動態節點,則會終止並重設節點。如需有關 sbatch
(包括參數) 的詳細資訊,請--no-requeue
參閱Slurm文件sbatch
案例 3:執行多節點任務的 Spot 執行個體遭到中斷
工作失敗,狀態碼為NODE_FAIL
,且會重新計算工作 (除非--no-requeue
在送出工作時指定)。如果節點是靜態節點,則會取代它。如果節點是動態節點,則會終止並重設節點。執行已終止工作的其他節點可能會配置給其他擱置中的工作,或在設定的 SlurmSettings/ScaledownIdletime時間過後縮減。
如需競價型執行個體的詳細資訊,請參閱 Amazon EC2 使用者指南中的競價型執行個體。