本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
ML 的容量區塊
ML 容量區塊可讓您在未來保留需求高的 GPU 執行個體,支援短期機器學習 (ML) 工作負載。在容量區塊內執行的執行個體會自動放置在 Amazon EC2
使用容量區塊,您可以查看未來何時可使用 GPU 執行個體容量,並且可以排定容量區塊在您最方便的時間啟動。保留容量區塊時,您可以獲得 GPU 執行個體的可預測容量保證,同時只須支付所需時間的費用。如果您需要 GPU 一次支援 ML 工作負載數天或數週,且不想在未使用 GPU 執行個體的情況下支付保留費用,建議您使用容量區塊。
以下是容量區塊的一些常見使用案例:
-
ML 模型訓練和微調 – 不間斷存取保留的 GPU 執行個體,以完成 ML 模型訓練和微調。
-
ML 實驗和原型 – 進行實驗並建置短時間需要 GPU 執行個體的原型。
容量區塊目前可用於p5.48xlarge
和p4d.24xlarge
執行個體。這些p5.48xlarge
執行個體可在美國東部 (俄亥俄) 和美國東部 (維吉尼亞北部) 區域使用。這些p4d.24xlarge
執行個體可在美國東部 (俄亥俄) 和美國西部 (奧勒岡) 區域使用。您可以保留最多未來八週內的容量區塊。
您可以使用容量區塊來預留具有下列保留持續時間p5
和p4d
執行個體數量選項的執行個體。
-
保留時間長度以 1 天為單位增加,最多總共 14 天
-
1、2、4、8、16、32 或 64 個執行個體的保留執行個體數量選項
若要預留容量區塊,請先指定容量需求,包括執行個體類型、執行個體數量、時間量、最早開始日期,以及所需的最晚結束日期。您就可以看到符合您規格的可用容量區塊方案。容量區塊方案包含詳細資訊,例如開始時間、可用區域和保留價格。容量區塊方案的價格取決於交付方案時的可用供給與需求。保留容量區塊後,價格不會變更。如需詳細資訊,請參閱 容量區塊定價和計費。
購買容量區塊方案時,系統會根據您選取的日期和執行個體數量保留。容量區塊保留開始時,您可以在啟動請求中指定保留 ID,鎖定執行個體啟動。
您可以使用所有保留的執行個體,直到容量區塊結束時間前 30 分鐘為止。容量區塊保留剩 30 分鐘時,我們就會開始終止容量區塊中執行的所有執行個體。我們會利用這段時間清理您的執行個體,再將容量區塊交付給下一位客戶。保留的最後 30 分鐘不會以容量區塊的價格收費。我們會在終止程序開始前 EventBridge 10 分鐘發出事件。如需詳細資訊,請參閱 監視容量區塊 EventBridge。
支援平台
ML 的容量區塊目前支援,以p5.48xlarge
及具有預設租用的p4d.24xlarge
執行個體。當您使用購買「 AWS Management Console 容量區塊」時,預設平台選項為 Linux/Unix。當您使用 AWS Command Line Interface (AWS CLI) 或購買 AWS
SDK容量區塊時,可以使用下列平台選項:
-
Linux/UNIX
-
Red Hat Enterprise Linux
-
RHEL with HA
-
SUSE Linux
-
Ubuntu Pro
考量事項
使用容量區塊之前,請考慮下列詳細資訊和限制。
-
容量區塊開始並在國際標準時間 (UTC) 上午 11 點 30 分結束。
-
終止容量區塊中執行的執行個體程序會在保留的最後一天國際標準時間 (UTC) 上午 11 點開始。
-
可以保留最多未來 8 週內的容量區塊。
-
不可修改和取消容量區塊。
-
容量區塊無法跨 AWS 帳戶或 AWS 組織內共用。
-
容量區塊無法在容量保留群組中使用。
-
在特定日期, AWS 組織中所有帳戶的容量區塊中可保留的執行個體總數不得超過 64 個執行個體。
-
若要使用容量區塊,執行個體必須專門鎖定保留 ID。
-
容量區塊中的執行個體不會計入您的隨需執行個體限制。
-
對於使用自訂 AMI 的 P5 執行個體,請確定您擁有 EFA 所需的軟體和組態。
-
容量區塊目前無法與 Amazon EKS 受管節點群組或Karpenter使用。如需如何建立 Amazon EKS 自我管理節點群組的詳細資訊,請參閱 Amazon EKS 使用者指南中的 ML 適用容量區塊。
相關資源
建立容量區塊之後,您可以使用容量區塊執行下列作業:
-
將執行個體啟動至容量區塊。如需詳細資訊,請參閱 在容量區塊中啟動執行個體。
-
創建一個 Amazon EC2 Auto Scaling 組。如需詳細資訊,請參閱 Amazon EC2 Auto Scaling 使用者指南中的機器學習工作負載使用容量區塊。
注意
如果您使用 Amazon EC2 Auto Scaling 或 Amazon EKS,您可以排程擴展以在容量區塊保留開始時執行。透過排定的擴充功能, AWS 會自動為您處理重試,因此您不必擔心實作重試邏輯來處理暫時性失敗。
-
使用 AWS ParallelCluster. 如需詳細資訊,請參閱使用 AWS ParallelCluster 和適用於 ML 的 Amazon EC2 容量區塊增強機器學習工作流程
。
如需有關的詳細資訊 AWS ParallelCluster,請參閱什麼是 AWS ParallelCluster。