探索 Amazon SageMaker Debugger 深入分析儀表板 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

探索 Amazon SageMaker Debugger 深入分析儀表板

當您啟動 SageMaker 訓練工作時,SageMaker Debugger 預設會開始監控 Amazon EC2 執行個體的資源使用率。您可以透過深入分析儀表板追蹤系統使用率、統計資料概觀和內建規則分析。本指南逐步介紹 SageMaker Debugger 下列索引標籤內的深入分析儀表板的內容:系統系統指標規則

注意

SageMaker Debugger Insights 儀表板會在ml.m5.4xlarge執行個體上執行 Studio Classic 應用程式,以處理和轉譯視覺化效果。每個 SageMaker Debugger Insights 索引標籤都會執行一個 Studio Classic 核心工作階段。在單一執行個體上執行多個 SageMaker Debugger 深入分析索引標籤的多個核心工作階段。當您關閉 SageMaker Debugger 深入分析索引標籤時,對應的核心工作階段也會關閉。Studio Classic 應用程式會保持作用中狀態,並產生ml.m5.4xlarge執行個體用量的費用。如需定價的相關資訊,請參閱 Amazon SageMaker AI 定價頁面。

重要

使用 SageMaker Debugger 深入分析儀表板後,請將 ml.m5.4xlarge 執行個體關機以避免產生費用。如需如何將執行個體關機的指示,請參閱將 Amazon SageMaker Debugger 深入分析執行個體關機

重要

在報告中,系統會提供資訊圖表和相關建議,其中的內容並非絕對。由您負責對當中的資訊進行自己的獨立評估。

系統指標

系統指標標籤內,您可以透過總結表格與時間序列圖表來瞭解資源使用率。

資源使用率總結

此總結表格顯示所有節點的運算資源使用率指標統計資料 (表示為 algo-n)。資源使用率指標包含 CPU 總使用率、總 GPU 使用率、總 CPU 記憶體使用率、總 GPU 記憶體使用率、總 I/O 等待時間,以及總網路輸入位元數。該表顯示了最小值和最大值,以及 p99,p90 和 p50 百分位數。

資源使用率總結資料表

資源使用率時間序列圖

您可以使用時間序列圖表查看資源使用率的更多詳細資訊,並識別每個執行個體顯示任何不需要的使用率的時間間隔,例如低 GPU 使用率和 CPU 瓶頸,這些瓶頸會浪費昂貴的執行個體。

時間序列圖形控制器使用者介面

下列螢幕擷取畫面顯示用於調整時間序列圖表的使用者介面控制器。

SageMaker Debugger 深入分析儀表板中的使用者介面控制器。
  • algo-1:請使用此下拉式清單選擇您要查看的節點。

  • 放大:請使用此按鈕放大時間序列圖表,並檢視較短的時間間隔。

  • 縮小:請使用此按鈕縮小時間序列圖表,並檢視更大的時間間隔。

  • 向左移動:將時間序列圖表移至較早的時間間隔。

  • 向右移動:將時間序列圖表移至較晚的時間間隔。

  • 修正時間範圍:使用此核取方塊可修正或復原時間序列圖表,以顯示從第一個資料點到最後一個資料點的完整檢視。

CPU 利用率和 I/O 等待時間

前兩個圖表顯示一段時間內的 CPU 利用率和 I/O 等待時間。依照預設值,這些圖表會顯示 CPU 利用率的平均值,以及花在 CPU 核心上的 I/O 等待時間。您可以選取一或多個 CPU 核心,方法是選取要在單一圖表上繪製圖形的標籤,並比較不同核心的使用率。您可以拖曳並放大、縮小以仔細查看特定的時間間隔。

debugger-studio-insight-mockup

GPU 使用率和 GPU 記憶體使用率

下列圖表顯示一段時間內的 GPU 使用率和 GPU 記憶體使用率。依預設值,圖表會顯示一段時間內的平均使用率。您可以選擇 GPU 核心標籤來查看每個核心的使用率。將使用率除以 GPU 核心總數的平均值,即可得出整個硬體系統資源的平均使用率。透過查看平均使用率,您可以檢查 Amazon EC2 執行個體的總體系統資源用量情況。下圖顯示有 8 個 GPU 核心的 ml.p3.16xlarge 執行個體訓練工作範例。您可以監控訓練工作是否分佈良好,並充分利用所有 GPU。

debugger-studio-insight-mockup

一段時間的總體系統使用率

下列熱度圖顯示 ml.p3.16xlarge 執行個體在一段時間內的整體系統使用率範例,投影到二維圖上。每個 CPU 和 GPU 核心都列在垂直軸上,並透過顏色方案記錄一段時間內的使用率,其中明亮的顏色代表低使用率,較暗的顏色代表高使用率。請參閱圖右側帶標籤的顏色條,以深入了解哪個顏色級別與哪個使用率相對應。

debugger-studio-insight-mockup

規則

使用規則標籤可找出您的訓練工作的分析規則分析總結。如果訓練工作啟動時具有分析規則,文字會以純白色文字強調顯示。非作用中規則會以灰色文字暗化。若要啟動這些規則,請依照使用由 Amazon SageMaker Debugger 管理的內建分析器規則中的指示。

SageMaker Debugger 深入分析儀表板中的規則索引標籤