기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
클러스터 및 작업 관찰성
SageMaker HyperPod 클러스터를 모니터링하기 위한 두 가지 옵션이 있습니다.
SageMaker HyperPod 관찰성 추가 기능 - SageMaker HyperPod는 파운데이션 모델(FM) 개발 작업 및 클러스터 리소스에 대한 인사이트를 제공하는 포괄적인 out-of-the-box 대시보드를 제공합니다. 이 통합 관찰성 솔루션은 주요 지표를 Amazon Managed Service for Prometheus에 자동으로 게시하고 Amazon Managed Grafana 대시보드에 표시합니다. 대시보드는 하드웨어 상태, 리소스 사용률 및 작업 수준 성능을 심층적으로 다루는 FM 개발에 특히 최적화되어 있습니다. 이 추가 기능을 사용하면 NVIDIA DCGM, 인스턴스 수준 Kubernetes 노드 내보내기, Elastic Fabric Adapter, 통합 파일 시스템, Kubernetes APIs, Kueue 및 SageMaker HyperPod 작업 연산자의 상태 및 성능 데이터를 통합할 수 있습니다.
Amazon CloudWatch Insights - Amazon CloudWatch Insights는 CPU, 메모리, 디스크 및 네트워크와 같은 컴퓨팅 리소스에 대한 지표를 수집합니다. 또한 Container Insights는 컨테이너 재시작 오류 같은 진단 정보를 제공하여 문제를 격리하고 신속하게 해결할 수 있도록 도와줍니다. Container Insights가 수집하는 메트릭에 대해 CloudWatch 경보를 설정할 수도 있습니다.