本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用 HyperPod 訓練運算子
Amazon SageMaker HyperPod 訓練運算子可有效管理大型 GPU 叢集的分散式訓練,協助您加速生成式 AI 模型開發。它引入智慧型故障復原、懸置任務偵測和程序層級管理功能,可將訓練中斷降至最低並降低成本。與發生故障時需要完整重新啟動任務的傳統訓練基礎設施不同,此運算子實作手術程序復原,讓您的訓練任務順利執行。
運算子也會使用 HyperPod 的運作狀態監控和可觀測性函數,提供訓練執行的即時可見性,並自動監控損失尖峰和輸送量降低等關鍵指標。您可以透過簡單的 YAML 組態定義復原政策,無需變更程式碼,可讓您快速回應無法復原的訓練狀態並從中復原。這些監控和復原功能可協同運作,以維持最佳的訓練效能,同時將營運開銷降至最低。
雖然此訓練運算子不需要 Kueue,但您的叢集管理員可以安裝和設定它,以增強任務排程功能。如需詳細資訊,請參閱 Kueue 的官方文件
注意
若要使用訓練運算子,您必須使用最新的 HyperPod AMI 版本。若要升級,請使用 UpdateClusterSoftware API 操作。如果您使用 HyperPod 任務控管,它也必須是最新版本。
支援的版本
HyperPod 訓練運算子僅適用於特定版本的 Kubernetes、Kue 和 HyperPod。如需相容版本的完整清單,請參閱下列清單。
-
支援的 Kubernetes 版本 – 1.28、1.29、1.30、1.31 或 1.32
-
最新的 HyperPod AMI 版本。若要升級至最新的 AMI 版本,請使用 UpdateClusterSoftware API。