選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

SageMaker HyperPod 叢集資源監控

焦點模式
SageMaker HyperPod 叢集資源監控 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要在您的 SageMaker HyperPod 叢集資源和軟體元件中實現全面的可觀測性,請將叢集與 Amazon Managed Service for PrometheusAmazon Managed Grafana 整合。與 Amazon Managed Service for Prometheus 的整合可匯出與 HyperPod 叢集資源相關的指標,提供其效能、使用率和運作狀態的洞見。與 Amazon Managed Grafana 的整合可透過各種 Grafana 儀表板來實現這些指標的視覺化,這些儀表板提供直覺式界面來監控和分析叢集的行為。透過利用這些服務,您可以集中且統一地檢視 HyperPod 叢集,促進分散式訓練工作負載的主動監控、疑難排解和最佳化。

提示

若要尋找實際範例和解決方案,請同時參閱 SageMaker HyperPod 研討會

使用 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 設定 SageMaker HyperPod 的概觀。

圖:此架構圖顯示使用 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana 設定 SageMaker HyperPod 的概觀。

繼續進行下列主題,以設定 SageMaker HyperPod 叢集可觀測性。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。