SageMaker HyperPod 클러스터 리소스 모니터링 - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

SageMaker HyperPod 클러스터 리소스 모니터링

SageMaker HyperPod 클러스터 리소스 및 소프트웨어 구성 요소를 포괄적으로 관찰하려면 Prometheus용 Amazon Managed Service 및 Amazon Managed Grafana와 클러스터를 통합하십시오. Amazon Managed Service for Prometheus와 통합하면 클러스터 리소스와 관련된 메트릭을 내보내 성능, 사용률 및 상태에 대한 통찰력을 얻을 HyperPod 수 있습니다. Amazon Managed Grafana와의 통합으로 클러스터의 동작을 모니터링하고 분석하기 위한 직관적인 인터페이스를 제공하는 다양한 Grafana 대시보드를 통해 이러한 지표를 시각화할 수 있습니다. 이러한 서비스를 활용하면 HyperPod 클러스터를 중앙에서 통합하여 볼 수 있어 분산 교육 워크로드의 사전 모니터링, 문제 해결 및 최적화가 용이해집니다.

이 아키텍처 다이어그램은 Prometheus용 Amazon Managed SageMaker HyperPod Service와 Amazon Managed Grafana를 사용한 구성 개요를 보여줍니다.

클러스터 옵저버빌리티를 설정하려면 다음 주제를 참조하십시오. SageMaker HyperPod