기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 관찰성 대시보드
이 주제에서는 Amazon SageMaker HyperPod(SageMaker HyperPod) 클러스터의 지표 대시보드를 보는 방법과 대시보드에 새 사용자를 추가하는 방법을 설명합니다. 또한이 주제에서는 다양한 유형의 대시보드에 대해 설명합니다.
대시보드 액세스
Amazon Managed Grafana에서 SageMaker HyperPod 클러스터의 지표를 보려면 다음 단계를 수행합니다.
https://console.aws.amazon.com/sagemaker/
Amazon SageMaker AI 콘솔을 엽니다. -
클러스터의 세부 정보 페이지로 이동합니다.
-
대시보드 탭에서 HyperPod 관찰성 섹션을 찾아 Grafana에서 대시보드 열기를 선택합니다.
Amazon Managed Grafana 워크스페이스에 새 사용자 추가
Amazon Managed Grafana 워크스페이스에 사용자를 추가하는 방법에 대한 자세한 내용은 Amazon Managed Grafana 사용 설명서의 Amazon Managed Grafana 워크스페이스와 함께 IAM Identity Center 사용을 AWS 참조하세요.
관찰성 대시보드
SageMaker HyperPod 관찰성 추가 기능은 기본 Amazon Managed Grafana 워크스페이스에서 상호 연결된 대시보드 5개를 제공합니다. 각 대시보드는 데이터 과학자, 기계 학습 엔지니어, 관리자와 같은 다양한 사용자를 위해 클러스터의 다양한 리소스 및 작업에 대한 심층적인 인사이트를 제공합니다.
작업 대시보드
작업 대시보드는 SageMaker HyperPod 작업에 대한 리소스 사용률 지표를 포괄적으로 모니터링하고 시각화합니다. 기본 패널에는 상위 작업별로 리소스 사용량을 그룹화하여 포드 전반의 CPU, GPU 및 메모리 사용률을 보여주는 자세한 테이블이 표시됩니다. 대화형 시계열 그래프는 선택한 포드의 CPU 사용량, 시스템 메모리 사용량, GPU 사용률 및 GPU 메모리 사용량을 추적하므로 시간 경과에 따른 성능 추세를 모니터링할 수 있습니다. 대시보드는 클러스터 이름, 네임스페이스, 작업 유형 및 특정 포드와 같은 변수를 통해 강력한 필터링 기능을 제공하므로 특정 워크로드를 쉽게 드릴다운할 수 있습니다. 이 모니터링 솔루션은 리소스 할당을 최적화하고 SageMaker HyperPod에서 기계 학습 워크로드의 성능을 유지하는 데 필수적입니다.
훈련 대시보드
훈련 대시보드는 훈련 작업 상태, 신뢰성 및 장애 관리 지표에 대한 포괄적인 모니터링을 제공합니다. 대시보드에는 자동 및 수동 재시작 이벤트에 대한 세부 추적과 함께 작업 생성 횟수, 성공률 및 가동 시간 백분율을 비롯한 주요 성능 지표가 있습니다. 유형 및 문제 해결 지연 시간별로 인시던트를 분류하는 파이형 차트와 히트맵을 통해 결함 패턴을 세부적으로 시각화하여 반복되는 문제를 식별하고 작업 신뢰성을 최적화할 수 있습니다. 인터페이스에는 시스템 복구 시간 및 장애 감지 지연 시간과 같은 중요한 지표에 대한 실시간 모니터링이 포함되어 있으므로 훈련 워크로드의 고가용성을 유지하기 위한 필수 도구입니다. 또한 대시보드의 24시간 후행 기간은 훈련 작업 성능의 추세와 패턴을 분석하기 위한 과거 컨텍스트를 제공하므로 팀이 프로덕션 워크로드에 영향을 미치기 전에 잠재적 문제를 사전에 해결할 수 있습니다.
추론 대시보드
추론 대시보드는 여러 차원에서 모델 배포 성능 및 상태 지표에 대한 포괄적인 모니터링을 제공합니다. 활성 배포에 대한 자세한 개요, 요청률, 성공률 및 지연 시간 지표의 실시간 모니터링을 통해 모델 서비스 성능을 추적하고 잠재적 병목 현상을 식별할 수 있습니다. 대시보드에는 일반적인 추론 지표와 첫 번째 토큰까지의 시간(TTFT) 및 토큰 처리량과 같은 언어 모델의 토큰별 지표 모두에 대한 특수 패널이 포함되어 있으므로 대규모 언어 모델 배포를 모니터링하는 데 특히 유용합니다. 또한 포드 및 노드 할당 추적을 통해 인프라 인사이트를 제공하는 동시에 추론 워크로드의 고가용성과 성능을 유지하는 데 도움이 되는 자세한 오류 분석 기능을 제공합니다.
클러스터 대시보드
클러스터 대시보드는 클러스터 상태 및 성능에 대한 포괄적인 보기를 제공하여 Amazon SageMaker HyperPod(SageMaker HyperPod) 환경 전반의 컴퓨팅, 메모리, 네트워크 및 스토리지 리소스에 대한 실시간 가시성을 제공합니다. 몇 초마다 데이터를 자동으로 업데이트하는 직관적인 인터페이스를 통해 총 인스턴스, GPU 사용률, 메모리 사용량 및 네트워크 성능을 포함한 중요한 지표를 한눈에 볼 수 있습니다. 대시보드는 정상 인스턴스 백분율 및 총 리소스 수와 같은 주요 지표를 표시하는 상위 수준 클러스터 개요부터 GPU 성능, 메모리 사용률, 네트워크 통계 및 스토리지 지표에 대한 세부 섹션까지 논리적 섹션으로 구성됩니다. 각 섹션에는 클러스터 이름, 인스턴스 또는 GPU ID별로 사용자 지정 가능한 시간 범위 및 필터링 옵션을 사용하여 특정 지표로 드릴다운할 수 있는 대화형 그래프와 패널이 있습니다.
파일 시스템 대시보드
파일 시스템 대시보드는 파일 시스템(Amazon FSx for Lustre) 성능 및 상태 지표에 대한 포괄적인 가시성을 제공합니다. 대시보드에는 여유 용량, 중복 제거 절감, CPU/메모리 사용률, 디스크 IOPS, 처리량, 여러 시각화의 클라이언트 연결 등 중요한 스토리지 지표가 표시됩니다. 이를 통해 CPU 및 메모리 사용량과 같은 시스템 수준 성능 지표와 읽기/쓰기 작업 및 디스크 사용률 패턴과 같은 스토리지별 지표를 모두 모니터링할 수 있습니다. 인터페이스에는 시간 경과에 따른 성능 추세를 추적하기 위한 알림 모니터링 기능과 세부 시계열 그래프가 포함되어 있으므로 사전 유지 관리 및 용량 계획에 유용합니다. 또한 대시보드는 포괄적인 지표 범위를 통해 잠재적 병목 현상을 식별하고, 스토리지 성능을 최적화하고, SageMaker HyperPod 워크로드에 대한 안정적인 파일 시스템 작업을 보장하는 데 도움이 됩니다.