기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker HyperPod 관찰성 추가 기능 문제 해결
다음 지침을 사용하여 Amazon SageMaker HyperPod(SageMaker HyperPod) 관찰성 추가 기능의 일반적인 문제를 해결합니다.
Amazon Managed Grafana에서 누락된 지표 문제 해결
Amazon Managed Grafana 대시보드에 지표가 표시되지 않는 경우 다음 단계를 수행하여 문제를 식별하고 해결합니다.
Amazon Managed Service for Prometheus-Amazon Managed Grafana 연결 확인
-
Amazon Managed Grafana 콘솔에 로그인합니다.
-
왼쪽 창에서 모든 워크스페이스를 선택합니다.
-
Workspaces 테이블에서 워크스페이스를 선택합니다.
-
워크스페이스의 세부 정보 페이지에서 데이터 소스 탭을 선택합니다.
-
Amazon Managed Service for Prometheus 데이터 소스가 존재하는지 확인합니다.
-
연결 설정을 확인합니다.
-
엔드포인트 URL이 올바른지 확인합니다.
-
IAM 인증이 올바르게 구성되었는지 확인합니다.
-
연결 테스트를 선택합니다. 상태가 데이터 소스가 작동 중인지 확인합니다.
-
Amazon EKS 추가 기능 상태 확인
https://console.aws.amazon.com/eks/home#/clusters
에서 Amazon EKS 콘솔을 엽니다. -
클러스터를 선택합니다.
-
추가 기능 탭을 선택합니다.
-
SageMaker HyperPod 관찰성 추가 기능이 나열되고 상태가 활성인지 확인합니다.
-
상태가 ACTIVE가 아닌 경우 오류 메시지와 연락처를 복사합니다 AWS Support.
포드 자격 증명 연결 확인
https://console.aws.amazon.com/eks/home#/clusters
에서 Amazon EKS 콘솔을 엽니다. -
클러스터를 선택합니다.
-
클러스터 세부 정보 페이지에서 액세스 탭을 선택합니다.
-
포드 자격 증명 연결 테이블에서 다음 속성 값이 있는 연결을 선택합니다.
-
네임스페이스:
hyperpod-observability
-
서비스 계정:
hyperpod-observability-operator-otel-collector
-
추가 기능:
amazon-sagemaker-hyperpod-observability
-
-
이 연결에 연결된 IAM 역할에 다음 권한이 있는지 확인합니다.
{ "Version": "2012-10-17", "Statement": [ { "Sid": "PrometheusAccess", "Effect": "Allow", "Action": "aps:RemoteWrite", "Resource": "arn:aws:aps:
AWS 리전
:account-ID
:workspace/workspace-ID
" }, { "Sid": "CloudwatchLogsAccess", "Effect": "Allow", "Action": [ "logs:CreateLogGroup", "logs:CreateLogStream", "logs:DescribeLogGroups", "logs:DescribeLogStreams", "logs:PutLogEvents", "logs:GetLogEvents", "logs:FilterLogEvents", "logs:GetLogRecord", "logs:StartQuery", "logs:StopQuery", "logs:GetQueryResults" ], "Resource": [ "arn:aws:logs:AWS 리전
:account-ID
:log-group:/aws/sagemaker/Clusters/*", "arn:aws:logs:AWS 리전
:account-ID
:log-group:/aws/sagemaker/Clusters/*:log-stream:*" ] } ] }
Amazon Managed Service for Prometheus 제한 확인
-
에 로그인 AWS Management Console 하고 https://console.aws.amazon.com/servicequotas/
Service Quotas 콘솔을 엽니다. -
관리형 할당량 상자에서 Amazon Managed Service for Prometheus를 검색하고 선택합니다.
-
워크스페이스당 활성 시리즈 할당량을 선택합니다.
-
리소스 수준 할당량 탭에서 Amazon Managed Service for Prometheus 워크스페이스를 선택합니다.
-
사용률이 현재 할당량보다 적은지 확인합니다.
-
할당량 한도에 도달한 경우 왼쪽에 있는 라디오 버튼을 선택하여 워크스페이스를 선택한 다음 리소스 수준에서 증가 요청을 선택합니다.
추가 기능 설치 실패 문제 해결
관찰성 추가 기능이 설치되지 않는 경우 다음 단계를 사용하여 문제를 진단하고 해결합니다.
상태 프로브 상태 확인
-
https://console.aws.amazon.com/eks/home#/clusters
에서 Amazon EKS 콘솔을 엽니다. -
클러스터를 선택합니다.
-
추가 기능 탭을 선택합니다.
-
실패한 추가 기능을 선택합니다.
-
상태 문제 섹션을 검토합니다.
-
문제 세부 정보는 AWS Support에 문의하세요.
관리자 로그 검토
-
추가 기능 관리자 포드를 가져옵니다.
kubectl get pods -n hyperpod-observability | grep manager
-
로그를 확인합니다.
kubectl logs -n kube-system
addon-manager-pod-name
긴급한 문제는에 문의하십시오 AWS Support.