Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터의 관찰성 - Amazon SageMaker AI

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon EKS에서 오케스트레이션한 SageMaker HyperPod 클러스터의 관찰성

SageMaker HyperPod 클러스터 리소스 및 소프트웨어 구성 요소를 포괄적으로 관찰하려면 클러스터를 Amazon CloudWatch Container Insights, Amazon Managed Service for PrometheusAmazon Managed Grafana와 통합합니다.

Amazon Managed Service for Prometheus와의 통합을 통해 HyperPod 클러스터 리소스와 관련된 지표를 내보낼 수 있으므로 성능, 사용률 및 상태에 대한 인사이트를 얻을 수 있습니다. Amazon Managed Grafana와의 통합을 통해 클러스터의 동작을 모니터링하고 분석하기 위한 직관적인 인터페이스를 제공하는 다양한 Grafana 대시보드를 통해 이러한 지표를 시각화할 수 있습니다. 이러한 서비스를 활용하면 HyperPod 클러스터를 중앙 집중식으로 통합하여 분산 훈련 워크로드의 사전 모니터링, 문제 해결 및 최적화를 촉진할 수 있습니다.

작은 정보

실제 예제와 솔루션을 찾으려면 SageMaker HyperPod 워크숍의 Amazon EKS 지원의 관찰성 섹션을 참조하세요.

다음 주제로 이동하여 SageMaker HyperPod 클러스터 관찰 가능성을 설정합니다.