本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker Profiler 目前為預覽版本,可在支援的 AWS 區域免費提供。Amazon SageMaker Profiler 的正式發布版本 (如果有) 可能包含與預覽版本提供的功能及定價有所不同。 |
Amazon SageMaker Profiler 是 Amazon SageMaker AI 的功能,可在 SageMaker AI 上訓練深度學習模型期間,提供佈建的運算資源的詳細檢視 AWS 。它著重於分析 CPU 及 GPU 的使用情況,GPU 的核心執行、CPU 的核心啟動、同步操作、跨 CPU 與 GPU 的記憶體操作、核心啟動以及相對應執行之間的延遲以及 CPU 和 GPU 之間的資料傳輸。SageMaker Profiler 也提供使用者介面 (UI),可將設定檔視覺化、分析事件的統計總結,以及訓練任務的時間軸,用於追蹤及瞭解 GPU 與 CPU 之間事件的時間關係。
注意
SageMaker Profiler 支援 PyTorch 和 TensorFlow,可在適用於 AWS SageMaker AI 的深度學習容器
對於資料科學家
在大型運算叢集訓練深度學習模型通常會遇到運算最佳化問題,例如瓶頸、核心啟動延遲、記憶體限制以及資源使用率低。
若要識別此類運算效能問題,您需要深入分析運算資源,以瞭解哪些核心會導致延遲,以及哪些作業會造成瓶頸。資料科學家可以從使用 SageMaker Profiler 使用者介面視覺化訓練任務的詳細資料受益。使用者介面提供儀表板,其中包含總結圖表和時間軸介面,可追蹤運算資源的每個事件。資料科學家也可以使用 SageMaker Profiler Python 模組新增自訂註釋,以追蹤訓練任務的某些部分。
對於管理員
如果您是 AWS 帳戶或 SageMaker AI 網域的管理員,您可以透過 SageMaker AI 主控台或 SageMaker AI 網域中的 Profiler 登陸頁面來管理 SageMaker 應用程式使用者。每個網域使用者可以在授予許可的情況下存取自己的 Profiler 應用程式。作為 SageMaker AI 網域管理員和網域使用者,您可以根據擁有的許可層級來建立和刪除 Profiler 應用程式。