本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
探索 Amazon SageMaker Debugger 深入分析儀表板
當您啟動 SageMaker 訓練工作時,SageMaker Debugger 預設會開始監控 Amazon EC2 執行個體的資源使用率。您可以透過深入分析儀表板追蹤系統使用率、統計資料概觀和內建規則分析。本指南逐步介紹 SageMaker Debugger 下列索引標籤內的深入分析儀表板的內容:系統系統指標和規則。
注意
SageMaker Debugger Insights 儀表板會在ml.m5.4xlarge
執行個體上執行 Studio Classic 應用程式,以處理和轉譯視覺化效果。每個 SageMaker Debugger Insights 索引標籤都會執行一個 Studio Classic 核心工作階段。在單一執行個體上執行多個 SageMaker Debugger 深入分析索引標籤的多個核心工作階段。當您關閉 SageMaker Debugger 深入分析索引標籤時,對應的核心工作階段也會關閉。Studio Classic 應用程式會保持作用中狀態,並產生ml.m5.4xlarge
執行個體用量的費用。如需定價的相關資訊,請參閱 Amazon SageMaker AI 定價
重要
使用 SageMaker Debugger 深入分析儀表板後,請將 ml.m5.4xlarge
執行個體關機以避免產生費用。如需如何將執行個體關機的指示,請參閱將 Amazon SageMaker Debugger 深入分析執行個體關機。
重要
在報告中,系統會提供資訊圖表和相關建議,其中的內容並非絕對。由您負責對當中的資訊進行自己的獨立評估。
系統指標
在系統指標標籤內,您可以透過總結表格與時間序列圖表來瞭解資源使用率。
資源使用率總結
此總結表格顯示所有節點的運算資源使用率指標統計資料 (表示為 algo-n)。資源使用率指標包含 CPU 總使用率、總 GPU 使用率、總 CPU 記憶體使用率、總 GPU 記憶體使用率、總 I/O 等待時間,以及總網路輸入位元數。該表顯示了最小值和最大值,以及 p99,p90 和 p50 百分位數。

資源使用率時間序列圖
您可以使用時間序列圖表查看資源使用率的更多詳細資訊,並識別每個執行個體顯示任何不需要的使用率的時間間隔,例如低 GPU 使用率和 CPU 瓶頸,這些瓶頸會浪費昂貴的執行個體。
時間序列圖形控制器使用者介面
下列螢幕擷取畫面顯示用於調整時間序列圖表的使用者介面控制器。

-
algo-1:請使用此下拉式清單選擇您要查看的節點。
-
放大:請使用此按鈕放大時間序列圖表,並檢視較短的時間間隔。
-
縮小:請使用此按鈕縮小時間序列圖表,並檢視更大的時間間隔。
-
向左移動:將時間序列圖表移至較早的時間間隔。
-
向右移動:將時間序列圖表移至較晚的時間間隔。
-
修正時間範圍:使用此核取方塊可修正或復原時間序列圖表,以顯示從第一個資料點到最後一個資料點的完整檢視。
CPU 利用率和 I/O 等待時間
前兩個圖表顯示一段時間內的 CPU 利用率和 I/O 等待時間。依照預設值,這些圖表會顯示 CPU 利用率的平均值,以及花在 CPU 核心上的 I/O 等待時間。您可以選取一或多個 CPU 核心,方法是選取要在單一圖表上繪製圖形的標籤,並比較不同核心的使用率。您可以拖曳並放大、縮小以仔細查看特定的時間間隔。

GPU 使用率和 GPU 記憶體使用率
下列圖表顯示一段時間內的 GPU 使用率和 GPU 記憶體使用率。依預設值,圖表會顯示一段時間內的平均使用率。您可以選擇 GPU 核心標籤來查看每個核心的使用率。將使用率除以 GPU 核心總數的平均值,即可得出整個硬體系統資源的平均使用率。透過查看平均使用率,您可以檢查 Amazon EC2 執行個體的總體系統資源用量情況。下圖顯示有 8 個 GPU 核心的 ml.p3.16xlarge
執行個體訓練工作範例。您可以監控訓練工作是否分佈良好,並充分利用所有 GPU。

一段時間的總體系統使用率
下列熱度圖顯示 ml.p3.16xlarge
執行個體在一段時間內的整體系統使用率範例,投影到二維圖上。每個 CPU 和 GPU 核心都列在垂直軸上,並透過顏色方案記錄一段時間內的使用率,其中明亮的顏色代表低使用率,較暗的顏色代表高使用率。請參閱圖右側帶標籤的顏色條,以深入了解哪個顏色級別與哪個使用率相對應。

規則
使用規則標籤可找出您的訓練工作的分析規則分析總結。如果訓練工作啟動時具有分析規則,文字會以純白色文字強調顯示。非作用中規則會以灰色文字暗化。若要啟動這些規則,請依照使用由 Amazon SageMaker Debugger 管理的內建分析器規則中的指示。
