叢集和任務可觀測性 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

叢集和任務可觀測性

監控 SageMaker HyperPod 叢集有兩種選項:

SageMaker HyperPod 可觀測性附加元件 - SageMaker HyperPod 提供全面且out-of-the-box儀表板,讓您深入了解基礎模型 (FM) 開發任務和叢集資源。這個統一的可觀測性解決方案會自動將關鍵指標發佈至 Amazon Managed Service for Prometheus,並在 Amazon Managed Grafana 儀表板中顯示這些指標。儀表板專為 FM 開發最佳化,可深入涵蓋硬體運作狀態、資源使用率和任務層級效能。使用此附加元件,您可以整合來自 NVIDIA DCGM、執行個體層級 Kubernetes 節點匯出程式、Elastic Fabric Adapter、整合檔案系統、Kubernetes APIs、Kueeue 和 SageMaker HyperPod 任務運算子的運作狀態和效能資料。

Amazon CloudWatch Insights—Amazon CloudWatch Insights 會收集運算資源的指標,例如 CPU、記憶體、磁碟和網路。Container Insights 還提供診斷資訊,例如容器重新啟動故障,協助您快速隔離和解決這些故障。您也可以為 Container Insights 收集的指標設定 CloudWatch 警示。