SageMaker HyperPod - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker HyperPod

SageMaker HyperPod 協助您佈建彈性叢集,以執行機器學習 (ML) 工作負載,並開發 state-of-the-art 大型語言模型 (LLM)、擴散模型和基礎模型 (FM) 等模型。它消除了構建和維護由數千個加速器(例如 AWS Trainium 和 NVIDIA A100 和 H100 圖形處理單元(GPU)提供支持的大規模計算集群,從而加速了 FMs 的開發。當加速器發生故障時,自我修復叢集會即時自動偵測並更換故障的硬體,讓您可以專注於執行數週和數月的機器學習工作負載,而不會中斷運作。此外 SageMaker HyperPod,您可以使用自訂最符合需求的運算環境,並使用 Amazon SageMaker 分散式訓練程式庫進行設定,以達到最佳效能 AWS。

作業叢集

您可以透過主控台使用者介面 (UI) 以圖形方式建立、設定和維護 SageMaker HyperPod 叢集,並透過 AWS 命令列介面 (CLI) 或以程式設計方式建立、設定和維護叢集。 AWS SDK for Python (Boto3)使用 Amazon VPC,您可以保護叢集網路,並利用 VPC 中的資源 (例如 Amazon FSx for Lustre) 來設定叢集,以提供最快的輸送量。您也可以為叢集執行個體群組提供不同的 IAM 角色,並限制叢集資源和使用者可以操作的動作。如需進一步了解,請參閱操作 SageMaker HyperPod

設定您的 ML 環境

SageMaker HyperPod 執行SageMaker HyperPod DLAMI,在 HyperPod 叢集上設定 ML 環境。您可以透過提供生命週期指令碼來支援您的使用案例,來設定 DLAMI 的其他自訂。若要進一步瞭解如何設定生命週期指令碼,請參閱開始使用 SageMaker HyperPodSageMaker HyperPod 生命週期組態最佳作

排程工作

成功建立 HyperPod 叢集後,叢集使用者可以登入叢集節點 (例如頭節點或控制器節點、登入節點和 Worker 節點),並排定執行機器學習工作負載的工作。如需進一步了解,請參閱在 SageMaker HyperPod 叢集上執行工作

針對硬體故障的彈性

SageMaker HyperPod 在叢集節點上執行健康狀態檢查,並提供工作負載自動恢復功能。使用的叢集恢復功能 HyperPod,您可以在具有超過 16 個節點的叢集中的運作狀態良好的節點取代故障節點後,從上次儲存的檢查點恢復工作負載。如需進一步了解,請參閱SageMaker HyperPod 叢集恢復能力

記錄和管理叢集

您可以在 Amazon 找到 SageMaker HyperPod 資源使用率指標和生命週期日誌 CloudWatch,並透過標記 SageMaker HyperPod 資源來管理資源。每次執行 CreateCluster API 都會建立不同的記錄資料流,以<cluster-name>-<timestamp>格式命名。在記錄資料流中,您可以檢查主機名稱、失敗生命週期指令碼的名稱,以及失敗指令碼 (例如stdout和) 的輸出stderr。如需詳細資訊,請參閱 SageMaker HyperPod 叢集管理

與 SageMaker 工具相容

使用時 SageMaker HyperPod,您可以使用提供的 AWS 最佳化集體通訊程式庫來設定叢集 SageMaker,例如SageMaker分散式資料平行處理原則 (SMDDP) 程式庫。SMDDP 程式庫會針對採用 NVIDIA A100 GPU 支援的最高效能 SageMaker 機器學習執行個體,實AllGather作針對 AWS 運算和網路基礎架構最佳化的作業。如需進一步了解,請參閱使用 Slurm on 執行分散式訓練工作負載 SageMaker HyperPod