Amazon SageMaker HyperPod - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Amazon SageMaker HyperPod

SageMaker HyperPod 可協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載和開發state-of-the-art模型,例如大型語言模型 (LLMs)、擴散模型和基礎模型 FMs)。它透過移除建置和維護採用 AWS Trainium 和 NVIDIA A100 和 H100 圖形處理器 (GPUs) 等數千個加速器的大型運算叢集所涉及的未區分的繁重提升,加速 FMs 的開發。加速器故障時,SageMaker HyperPod 的彈性功能會自動即時偵測並取代故障的硬體,讓您可以專注於執行 ML 工作負載。

若要開始使用,請檢查 使用 SageMaker HyperPod 的先決條件、設定 AWS Identity and Access Management for SageMaker HyperPod,然後選擇 SageMaker HyperPod 支援的下列其中一個協調器選項。

SageMaker HyperPod 中的 Slurm 支援

SageMaker HyperPod 透過與開放原始碼工作負載管理員 Slurm 整合,支援在彈性叢集上執行機器學習工作負載。SageMaker HyperPod 中的 Slurm 支援可透過 Slurm 叢集組態實現無縫叢集協同運作,可讓您在 SageMaker HyperPod 叢集上設定前端、登入和工作者節點。此整合也有助於 Slurm 型任務排程,以便在叢集上執行 ML 工作負載,以及直接存取叢集節點以進行任務排程。透過 HyperPod 的生命週期組態支援,您可以自訂叢集的運算環境,以符合您的特定需求。此外,透過利用 Amazon SageMaker AI 分散式訓練程式庫,您可以最佳化叢集的 AWS 運算和網路資源效能。如需詳細資訊,請參閱 使用 Slurm 協調 SageMaker HyperPod 叢集

SageMaker HyperPod 中的 Amazon EKS 支援

SageMaker HyperPod 也與 Amazon EKS 整合,以在長時間執行和彈性的運算叢集上大規模訓練基礎模型。這可讓叢集管理員使用者佈建 HyperPod 叢集,並將其連接到 EKS 控制平面,以啟用動態容量管理、直接存取叢集執行個體和彈性功能。對於資料科學家,HyperPod 中的 Amazon EKS 支援允許執行容器化工作負載以進行訓練基礎模型、EKS 叢集上的推論,以及利用任務自動恢復功能進行 Kubeflow PyTorch 訓練。架構涉及 VPC 內的 EKS 叢集 (控制平面) 與 HyperPod 叢集 (工作者節點) 之間的 1 對 1 映射,提供緊密整合的解決方案,以執行大規模 ML 工作負載。如需詳細資訊,請參閱 使用 Amazon EKS 協調 SageMaker HyperPod 叢集

具有 HyperPod 的 UltraServers

HyperPod with UltraServers 將 NVIDIA 超級晶片整合到具凝聚力的高效能基礎設施中,提供 AI 運算能力。每個 NVL72 UltraServer 結合了 18 個執行個體與透過 NVLink 互連的 72 個 NVIDIA Blackwell GPUs,相較於上一代執行個體,可更快速地推論並提高訓練效能。此架構對於使用 兆參數基礎模型的組織特別重要,因為統一的 GPU 記憶體可讓整個模型保留在單一 NVLink 網域中,消除跨節點聯網瓶頸。HyperPod 透過智慧型拓撲感知排程來增強此硬體優勢,可最佳化工作負載置放、自動替換執行個體以將中斷降至最低,以及支援專用和共用資源組態的彈性部署選項。對於突破模型大小和效能界限的團隊,此整合提供了以前所未有的效率訓練和部署最進階 AI 模型所需的運算基礎。

SageMaker HyperPod 會自動最佳化跨 UltraServers 的執行個體放置。根據預設,HyperPod 會先排定一個 UltraServer 中所有執行個體的優先順序,再使用不同的執行個體。例如,如果您想要 14 個執行個體,並在計畫中擁有 2 個 UltraServers,SageMaker AI 會使用第一個 UltraServer 中的所有執行個體。如果您想要 20 個執行個體,SageMaker AI 會使用第一個 UltraServer 中的所有 18 個執行個體,然後從第二個執行個體再使用 2 個執行個體。

AWS 區域 SageMaker HyperPod 支援

下列提供 SageMaker HyperPod AWS 區域。

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • eu-south-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-3

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1