監控 AWS Amazon SageMaker 工作室經典版中的運算資源 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 AWS Amazon SageMaker 工作室經典版中的運算資源

若要追蹤訓練任務的運算資源使用率,請使用 Amazon SageMaker 偵錯工具提供的監控工具。

對於 SageMaker 使用 SageMaker Python SDK 執行的任何訓練工作,除錯工具會每 500 毫秒收集一次基本的資源使用率指標,例如 CPU 使用率、GPU 使用率、GPU 記憶體使用率、網路和 I/O 等待時間。若要查看訓練工作的資源使用率指標的儀表板,只要在 SageMaker Studio 實驗中使用SageMaker 偵錯工具 UI 即可。

深度學習作業和步驟可能以毫秒間隔運作。與以 1 秒間隔收集指標的 Amazon CloudWatch 指標相比,偵錯工具可在資源使用率指標中提供更精細的粒度,最低至 100 毫秒 (0.1 秒),讓您可以深入瞭解作業或步驟層級的指標。

如果您想要變更指標收集時間間隔,您可以將分析組態參數新增至訓練任務啟動器。例如,如果您使用的是 SageMaker Python SDK,則需要在建立估算器物件時傳遞profiler_config參數。若要了解如何調整資源使用率指標收集間隔,請參閱 使用 Python SDK 中的除錯程式 Python 模組設定 SageMaker 估算 SageMaker 器物件的程式碼範本 SageMaker為系統資源使用率的基本分析進行設定

此外,您可以新增問題偵測工具,稱為「偵 SageMaker 錯工具」所提供的內建效能分析 內建分析規則會針對資源使用率指標執行分析,並偵測運算效能問題。如需詳細資訊,請參閱 設定由 Amazon 偵錯工具管理的內建效能分析工具規則 SageMaker 。您可以通過 SageMaker Studio 實驗中的SageMaker 調試器 UI 或調試器分析報告接收規則分析結果。SageMaker 您也可以使用 SageMaker Python SDK 建立自訂效能分析規則。

若要深入了解 SageMaker 偵錯程式所提供的監視功能,請參閱下列主題。