本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
為您的訓練任務或 HyperPod 叢集保留訓練計畫
Amazon SageMaker 訓練計畫是一項功能,可讓您保留 GPU 容量,並協助將 GPU 容量用於大規模 AI 模型訓練工作負載。此功能可讓您存取熱門的執行個體類型,涵蓋各種 GPU 加速運算選項,包括最新的 NVIDIA GPU 技術和 AWS 訓練晶片。透過 SageMaker 訓練計畫,您可以在指定的時間表和預算內確保對這些高需求、高效能運算資源的可預測存取,而無需管理基礎基礎設施。此彈性對於處理為其關鍵任務 AI 工作負載取得和排程這些過度訂閱運算執行個體之挑戰的組織特別有用。
什麼是 SageMaker 訓練計畫
SageMaker 訓練計畫可讓您保留針對目標資源需求量身打造的運算容量,例如 SageMaker 訓練任務或 SageMaker HyperPod 叢集。服務會自動處理保留、佈建加速運算資源、基礎設施設定、工作負載執行,以及從基礎設施故障中復原。
SageMaker 訓練計畫包含一或多個預留容量區塊,每個區塊都由下列參數定義:
-
特定執行個體類型
-
執行個體數量
-
可用區域
-
持續時間
-
開始和結束時間
注意
-
訓練計畫專屬於其目標資源 (SageMaker Training Job 或 SageMaker HyperPod),無法互換。
-
單一訓練計畫中的多個預留容量區塊可能會不連續。這表示預留容量區塊之間可能會有間隙。
SageMaker 訓練計畫的優點
SageMaker 訓練計劃提供下列優點:
-
可預測存取:在指定的時間範圍內為機器學習工作負載預留 GPU 容量。
-
成本管理:事先規劃和預算大規模訓練需求。
-
自動化資源管理:SageMaker 訓練計畫會處理基礎設施的佈建和管理。
-
彈性:為各種資源建立訓練計畫,包括 SageMaker 訓練任務和 SageMaker HyperPod 叢集。
-
容錯能力:受益於 SageMaker AI 訓練任務的基礎設施故障和跨可用區域的工作負載遷移的自動復原。
SageMaker 訓練計劃預先保留和彈性的開始時間
SageMaker 訓練計畫可讓您提前保留運算容量,以及彈性的開始時間和持續時間。
-
提前保留:您可以在開始日期前最多 8 週 (56 天) 內保留訓練計畫。
-
最短前置時間:SageMaker 訓練計畫方案可在保留後 30 分鐘內開始,視可用性而定。
注意
您可以搜尋並購買可在 30 分鐘內存取的計劃。為了確保及時啟用,付款交易必須在所需的開始時間前至少 5 分鐘成功完成。例如,如果您希望計劃在下午 2:00 開始,您可以最晚在下午 1:30 進行最後一分鐘搜尋,並在下午 1:55 前完成購買,以確保計劃在下午 2:00 前準備就緒。
-
保留持續時間和執行個體數量:SageMaker 訓練計畫可讓您保留具有特定持續時間和數量選項的執行個體。如需指定 AWS 區域、持續時間和數量選項中可用的執行個體類型,請參閱 支援的執行個體類型、 AWS 區域和 定價。
-
結束時間:訓練計劃一律在保留最後一天的 UTC 上午 11:30 結束。
-
訓練計畫終止:如果您使用訓練任務做為目標資源,且保留在預留容量中 30 分鐘,SageMaker 訓練計畫會啟動終止該區塊內任何執行中執行個體的程序,直到下一個預留容量變成作用中為止。您保留訓練計畫的完整存取權,直到最終預留容量區塊結束時間前 30 分鐘為止。
如果您的目標資源是 SageMaker HyperPod 叢集,則此時間限制為一小時。
SageMaker 訓練計劃使用者工作流程
SageMaker 訓練計畫會執行下列步驟:
管理員步驟:
-
搜尋和檢閱:尋找符合您運算需求的可用計劃方案,例如執行個體類型、計數、開始時間和持續時間。
-
建立計劃:使用所選計劃方案的 ID 預留符合您需求的訓練計劃。
-
付款和排程:成功預付付款後,計劃狀態會變成
Scheduled
。
規劃使用者/ML 工程師的步驟:
-
資源分配:使用您的計劃將 SageMaker AI 訓練任務排入佇列,或配置給 SageMaker HyperPod 叢集執行個體群組。
-
啟用:計劃開始日期送達時,會變成
Active
。根據可用的預留容量,SageMaker 訓練計畫會自動啟動訓練任務或佈建執行個體群組。
注意
當預留容量期間開始時,訓練計畫的狀態會從 轉換為 Scheduled
Active
,然後在Scheduled
等待下一個預留容量期間開始時回到 。
下圖提供 SageMaker 訓練計畫如何與不同 互動的完整概觀target resources,說明計畫的生命週期及其在 SageMaker 訓練任務和 SageMaker HyperPod 叢集的資源配置中的角色。
-
SageMaker 訓練任務的訓練計畫:第一個圖表說明訓練計畫與 SageMaker 訓練任務之間互動的end-to-end工作流程。
-
SageMaker HyperPod 叢集的訓練計畫:第二個圖表說明訓練計畫與 SageMaker HyperPod 執行個體群組之間互動的end-to-end工作流程。
支援的執行個體類型、 AWS 區域和 定價
訓練計劃支援下列特定高效能執行個體類型的保留,每個都可以在 select 中使用 AWS 區域:
-
ml.p4d.24xlarge
-
ml.p5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
-
ml.p6-b200.48xlarge
-
ml.c6i-32xlargesc
UltraServers
-
ml.p6e-gb200.36xlarge
-
ml.p6e-gb200.72xlarge
注意
執行個體類型的可用性可能會隨著時間而變更。如需根據區域可用執行個體類型up-to-date,以及其個別價格,請參閱 SageMaker 定價
跨多個區域的可用性允許 為工作負載選擇最合適的位置,並考慮資料駐留要求和其他 AWS 服務的鄰近性等因素。
重要
-
您可以使用 SageMaker 訓練計劃來預留具有下列保留持續時間和執行個體數量選項的執行個體。
-
保留期間以 1 天為增量,從 1 到 182 天。
-
保留執行個體數量選項為 1、2、4、8、16、32 或 64 個執行個體。
-
-
請確定您的訓練任務或 HyperPod 服務配額允許每個執行個體類型超過您計劃中指定執行個體數量的執行個體數量上限。若要檢視您目前的配額或請求提高配額,請參閱 使用 AWS 管理主控台檢視 SageMaker 訓練計畫配額。
SageMaker AI 中的 UltraServers
SageMaker AI 中的 UltraServers 提供一組透過高頻寬網路網域互連的執行個體。例如,P6e-GB200 UltraServer 在一個 NVIDIA NVLink 網域下最多連接 18 個p6e-gb200.36xlarge
執行個體。透過每個執行個體 4 個 NVIDIA Blackwell GPUs,每個 P6e-GB200 UltraServer 都支援 72 個 GPUs,因此您可以在 SageMaker AI 上執行效能最高的 AI 工作負載。
當您搭配 SageMaker AI 使用 UltraServers 時,您可以取得效能,結合 SageMaker AI 的受管基礎設施、內建的故障復原功能、整合式監控功能,以及與其他 SageMaker AI AWS 和服務原生整合。此整合可讓您專注於模型開發和部署,同時 SageMaker AI 會處理管理 AI 基礎設施的無差別繁重工作。
注意
UltraServers 僅適用於達拉斯本地區域 (us-east-1-dfw-2a),這是美國東部 (維吉尼亞北部) 區域的延伸。如需詳細資訊,請參閱 入門 AWS Local Zone
考量事項
搭配 SageMaker AI 使用 UltraServers 時,請考慮下列事項:
-
您可以將 UltraServers 用於 SageMaker HyperPod 和 SageMaker 訓練任務。
-
您只能以完整單位購買 UltraServers。如需執行個體和定價資訊的詳細資訊,請參閱 Amazon SageMaker AI 定價中的 Amazon SageMaker
HyperPod 彈性訓練計畫。 -
如果您將 UltraServers 與 HyperPod 搭配使用,HyperPod 會自動將拓撲標籤新增至資源,以協助您進行資源配置。如需詳細資訊,請參閱在 Amazon SageMaker HyperPod 中使用拓撲感知排程。
-
SageMaker AI 和 UltraServers 提供各種功能,可增強工作負載的彈性,包括先佔性檢查和自動故障偵測和緩解。根據問題所在,SageMaker AI 可以執行動作來復原工作負載,例如重新啟動執行個體、以備用執行個體取代失敗的執行個體,以及取代失敗的 UltraServers。
-
若要提高彈性,您可以將 UltraServer 中的執行個體設定為用作備用執行個體。在 UltraServer 中保留備用執行個體可確保 SageMaker AI 可以快速回應執行個體故障,同時將對任務的任何影響降至最低。我們建議您為每個 UltraServer 保留一個備用執行個體。您不需要保留任何備用執行個體,但這可能會阻礙支援選項並降低故障復原速度。您依整體購買 UltraServers,因此您預留的備用數量不會影響定價。
-
若要查看 UltraServer 中的狀態和執行個體,請使用 ListTrainingPlans API 操作或 AWS 主控台來查看訓練計劃。使用這些工具,您可以查看可用執行個體的總數、目前正在使用的執行個體、運作狀態不佳的執行個體、已設定的備件數量,以及其他資訊。可能的運作狀態為
ok
、impaired
和insufficient-data
。
SageMaker 訓練計畫搜尋行為
搜尋訓練計畫產品時,SageMaker 訓練計畫使用下列方法來最大化使用者的資源可用性和彈性,即使需求很高且預留容量區塊很少:
-
初始持續搜尋:SageMaker 訓練計畫會先嘗試尋找符合開始和結束日期內指定持續時間的單一連續預留容量區塊,同時符合所有其他指定條件,包括目標資源、請求的執行個體類型和執行個體數量。
-
雙區塊搜尋:如果符合所有條件的單一連續預留容量區塊無法使用,SageMaker 訓練計畫不會傳回「無容量」結果。相反地,它會自動嘗試使用兩個單獨的預留容量區塊來完成請求,將總持續時間分割為兩個時段。
這種雙區塊方法在資源配置方面提供更多彈性,可能會保護無法使用的高需求執行個體。
注意
SageMaker 訓練計劃最多可傳回一個或兩個客群的三個方案。例如,對於 48 小時持續時間計劃,SageMaker 訓練計劃可能會提供具有兩個 24 小時區塊、一個連續 48 小時區塊和兩個持續時間不平均區塊的計劃。
考量事項
重要
-
訓練計劃一旦購買就無法修改。
-
訓練計劃無法跨 AWS 帳戶或在您的 AWS 組織內共用。
-
搜尋訓練計畫產品時,SageMaker 訓練計畫會根據 調整其搜尋策略target resources:
對於 SageMaker HyperPod 叢集:
-
方案僅限於單一可用區域 (AZ)。
-
這可確保叢集內的一致網路效能和資料地區性。
對於 SageMaker 訓練任務:
-
方案可以跨越多個可用區域。
-
當計劃方案包含多個不連續的預留容量時,這尤其重要。
-
例如,計劃可能在一個預留容量區塊的 AZ-A 中包含容量,另一個則包含 AZ-B。SageMaker 訓練計劃可以根據資源可用性,在可用區域 (AZs) 之間自動移動工作負載。
這種用於訓練任務的多可用區方法在資源配置方面提供更大的彈性,增加為您的工作負載尋找合適容量的機會。不過,您應該知道,您的任務可能會在保留期間的不同部分在不同 AZs 中執行。
-
-
提供雙區塊方案時,使用者應仔細考慮此分割配置是否符合其工作負載需求。這可能需要調整任務排程或工作負載分佈,以適應保留的非連續性質。