本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker Profiler
Amazon SageMaker Profiler 目前處於預覽版本中,並可在支援的 中免費使用 AWS 區域。Amazon SageMaker Profiler 的通用版本 (如果有) 可能包含與預覽版所提供的功能和定價不同。 |
Amazon SageMaker Profiler 是 Amazon 的功能 SageMaker ,可在 上提供訓練深度學習模型期間佈建的運算資源的詳細檢視 AWS SageMaker。其著重於分析 CPU和 GPU使用情況、核心在 上執行GPUs、同步CPUs操作、跨 CPUs和 的核心啟動GPUs、核心啟動和對應執行之間的延遲,以及 CPUs和 之間的資料傳輸GPUs。 SageMaker Profiler 也提供使用者介面 (UI),可視覺化設定檔 、設定檔事件的統計摘要,以及訓練任務的時間表,以追蹤和了解 GPUs與 之間的事件時間關係CPUs。
注意
SageMaker Profiler 支援 PyTorch 和 TensorFlow ,可在AWS 適用於 的深度學習容器 SageMaker
對於資料科學家
在大型運算叢集訓練深度學習模型通常會遇到運算最佳化問題,例如瓶頸、核心啟動延遲、記憶體限制以及資源使用率低。
若要識別此類運算效能問題,您需要深入分析運算資源,以瞭解哪些核心會導致延遲,以及哪些作業會造成瓶頸。資料科學家可以利用 SageMaker Profiler UI 來視覺化訓練任務的詳細描述檔。使用者介面提供儀表板,其中包含總結圖表和時間軸介面,可追蹤運算資源的每個事件。資料科學家也可以新增自訂註釋,以使用 SageMaker Profiler Python 模組追蹤訓練任務的某些部分。
針對管理員
如果您是 AWS 帳戶 SageMaker或SageMaker 網域的管理員,您可以透過 SageMaker 主控台或網域 中的 Profiler 登陸頁面來管理 Profiler 應用程式使用者。每個網域使用者可以在授予許可的情況下存取自己的 Profiler 應用程式。作為 SageMaker 網域管理員和網域使用者,您可以在您擁有的許可層級建立和刪除 Profiler 應用程式。