使用 競價型執行個體 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 競價型執行個體

AWS ParallelCluster 如果您已SPOT在叢集配置檔中將 SlurmQueues/CapacityTypeAwsBatchQueues/設定CapacityType為,則會使用 Spot 執行個體。Spot 執行個體比隨需執行個體更具成本效益,但可能會中斷。這可能有助於利用 Spot 執行個體中斷通知,該通知在 Amazon EC2 必須停止或終止 Spot 執行個體之前提供兩分鐘的警告。如需詳細資訊,請參閱 Amazon EC2 使用者指南中的競價型執行個體中斷。要了解如何使AwsBatchQueues用 Spot 執行個體,請參閱AWS Batch 使用者指南中的計算資源

AWS ParallelCluster 設定的排程器會將任務指派給具有 Spot 執行個體之佇列中的運算資源,方式與將任務指派給具有隨需執行個體之佇列中的運算資源相同

使用 Spot 執行個體時,您的帳戶中必須有 AWSServiceRoleForEC2Spot 服務連結角色。若要使用在您的帳戶中建立此角色 AWS CLI,請執行下列命令:

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

如需詳細資訊,請參閱 Amazon EC2 使用者指南的 Spot 執行個體請求的服務連結角色

以下各節說明 Spot 執行個體在使用時可能會中斷的三種案例SlurmQueues

案例 1:沒有執行中任務的 Spot 執行個體遭到中斷

發生此中斷時,如果排程器佇列有擱置的工作需要額外執行個體,或作用中執行個體的數目低於 SlurmQueues/ComputeResources/,則 AWS ParallelCluster 嘗試取代執行個體MinCount。如果 AWS ParallelCluster 無法佈建新執行個體,則會定期重複新執行個體的要求。

案例 2:執行單一節點任務的 Spot 執行個體遭到中斷

工作失敗,狀態碼為NODE_FAIL,且會重新計算工作 (除--no-requeue非在送出工作時指定)。如果節點是靜態節點,則會取代它。如果節點是動態節點,則會終止並重設節點。如需有關 sbatch (包括參數) 的詳細資訊,請--no-requeue參閱Slurm文件sbatch中的。

案例 3:執行多節點任務的 Spot 執行個體遭到中斷

工作失敗,狀態碼為NODE_FAIL,且會重新計算工作 (除非--no-requeue在送出工作時指定)。如果節點是靜態節點,則會取代它。如果節點是動態節點,則會終止並重設節點。執行已終止工作的其他節點可能會配置給其他擱置中的工作,或在設定的 SlurmSettings/ScaledownIdletime時間過後縮減。

如需競價型執行個體的詳細資訊,請參閱 Amazon EC2 使用者指南中的競價型執行個體。