內建演算法的執行個體類型 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

內建演算法的執行個體類型

大多數 Amazon SageMaker AI 演算法都經過設計,以利用 GPU 運算進行訓練。雖然每個執行個體的成本較高,但 GPU 的訓練速度更快,更具成本效益。例外有註明在本教學中。

若要了解支援的 EC2 執行個體,請參閱執行個體詳細資訊

何種硬體組態最能發揮效率,資料的大小和類型有很大的影響。當相同的模型要不斷循環訓練時,最初在多種執行個體類型上進行測試,可找出長程下來最具成本效益的組態。此外,在 GPU 上訓練效率最佳的演算法,在推論時的效率可能並不需要 GPU。請進行實驗,找出最具效率的解決方案。若要取得自動執行個體建議或執行自訂負載測試,請使用 Amazon SageMaker Inference Recommender

如需 SageMaker AI 硬體規格的詳細資訊,請參閱 Amazon SageMaker AI ML 執行個體類型

UltraServers

UltraServers 使用低延遲、高頻寬加速器互連來連接多個 Amazon EC2 執行個體。它們旨在處理需要大量處理能力的大規模 AI/ML 工作負載。如需詳細資訊,請參閱 Amazon EC2 UltraServers。若要開始使用 UltraServers,請參閱為您的訓練任務或 HyperPod 叢集預留訓練計畫

若要在 Amazon SageMaker AI 上開始使用 UltraServers,請建立訓練計畫。訓練計畫中提供 UltraServer 後,請使用 AWS Management Console、Amazon SageMaker AI API 或 建立訓練任務 AWS CLI。請記得指定您在訓練計畫中購買的 UltraServer 執行個體類型。

UltraServer 一次可以執行一或多個任務。UltraServers 會將執行個體分組在一起,這可讓您在組織中配置 UltraServer 容量方面擁有一些靈活性。當您設定任務時,也請記住組織的資料安全指導方針,因為一個 UltraServer 中的執行個體可以存取相同 UltraServer 上另一個執行個體中另一個任務的資料。

如果您在 UltraServer 中遇到硬體故障,SageMaker AI 會自動嘗試解決問題。隨著 SageMaker AI 調查並解決問題,您可能會透過 AWS Health Events 或 接收通知和動作 AWS 支援。

訓練任務完成後,SageMaker AI 會停止執行個體,但如果計劃仍處於作用中狀態,這些執行個體仍會保留在您的訓練計劃中。若要在任務完成後讓 UltraServer 中的執行個體持續執行,您可以使用受管暖集區

如果您的訓練計畫有足夠的容量,您甚至可以在多個 UltraServers 上執行訓練任務。根據預設,每個 UltraServer 都隨附 18 個執行個體,其中包含 17 個執行個體和 1 個備用執行個體。如果您需要更多執行個體,則必須購買更多 UltraServers。建立訓練任務時,您可以使用 InstancePlacementConfig 參數設定任務在 UltraServers 之間的放置方式。

如果您未設定任務置放,SageMaker AI 會自動將任務配置到 UltraServer 中的執行個體。此預設策略是根據在使用不同的 UltraServer 之前,優先填入單一 UltraServer 中的所有執行個體。例如,如果您請求 14 個執行個體,並在訓練計畫中擁有 2 個 UltraServers,SageMaker AI 會使用第一個 UltraServer 中的所有執行個體。如果您請求 20 個執行個體,並在訓練計畫中有 2 個 UltraServers,SageMaker AI 將使用第一個 UltraServer 中的所有 17 個執行個體,然後從第二個 UltraServer 使用 3 個執行個體。UltraServer 內的執行個體使用 NVLink 進行通訊,但個別 UltraServers 使用 Elastic Fabric Adapter (EFA),這可能會影響模型訓練效能。