本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
監控 AWS Amazon SageMaker 工作室經典版中的運算資源
若要追蹤訓練任務的運算資源使用率,請使用 Amazon SageMaker 偵錯工具提供的監控工具。
對於 SageMaker 使用 SageMaker Python SDK 執行的任何訓練工作,除錯工具會每 500 毫秒收集一次基本的資源使用率指標,例如 CPU 使用率、GPU 使用率、GPU 記憶體使用率、網路和 I/O 等待時間。若要查看訓練工作的資源使用率指標的儀表板,只要在 SageMaker Studio 實驗中使用SageMaker 偵錯工具 UI 即可。
深度學習作業和步驟可能以毫秒間隔運作。與以 1 秒間隔收集指標的 Amazon CloudWatch 指標相比,偵錯工具可在資源使用率指標中提供更精細的粒度,最低至 100 毫秒 (0.1 秒),讓您可以深入瞭解作業或步驟層級的指標。
如果您想要變更指標收集時間間隔,您可以將分析組態參數新增至訓練任務啟動器。例如,如果您使用的是 SageMaker Python SDK,則需要在建立估算器物件時傳遞profiler_config
參數。若要了解如何調整資源使用率指標收集間隔,請參閱 使用 Python SDK 中的除錯程式 Python 模組設定 SageMaker 估算 SageMaker 器物件的程式碼範本 SageMaker 和 為系統資源使用率的基本分析進行設定。
此外,您可以新增問題偵測工具,稱為「偵 SageMaker 錯工具」所提供的內建效能分析 內建分析規則會針對資源使用率指標執行分析,並偵測運算效能問題。如需詳細資訊,請參閱 設定由 Amazon 偵錯工具管理的內建效能分析工具規則 SageMaker 。您可以通過 SageMaker Studio 實驗中的SageMaker 調試器 UI 或調試器分析報告接收規則分析
若要深入了解 SageMaker 偵錯程式所提供的監視功能,請參閱下列主題。