기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
벤딩 로그를 사용하여 수집기 모니터링
Amazon Managed Service for Prometheus 수집기는 지표 수집 프로세스를 모니터링하고 문제를 해결하는 데 도움이 되는 판매 로그를 제공합니다. 이러한 로그는 Amazon CloudWatch Logs로 자동으로 전송되며 서비스 검색, 지표 수집 및 데이터 내보내기 작업에 대한 가시성을 제공합니다. 수집기는 지표 수집 파이프라인의 세 가지 주요 구성 요소에 대한 로그를 제공합니다.
서비스 검색 로그
서비스 검색 로그는 다음을 포함하여 대상 검색 프로세스에 대한 정보를 제공합니다.
-
Kubernetes API 리소스에 액세스할 때 인증 또는 권한 문제.
-
서비스 검색 설정의 구성 오류입니다.
다음 예제에서는 서비스 검색 중에 발생할 수 있는 일반적인 인증 및 권한 오류를 보여줍니다.
- 존재하지 않는 Amazon EKS 클러스터
-
지정된 Amazon EKS 클러스터가 없는 경우 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
- 서비스에 대한 잘못된 권한
-
수집기에 서비스를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 없는 경우 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
- 엔드포인트에 대한 잘못된 권한
-
수집기에 엔드포인트를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 없는 경우 다음 오류가 발생합니다.
{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
수집기 로그
수집기 로그는 다음을 포함하여 지표 스크레이핑 프로세스에 대한 정보를 제공합니다.
-
엔드포인트를 사용할 수 없어 발생하는 스크레이프 실패.
-
대상을 스크레이프하려고 할 때 연결 문제가 발생합니다.
-
스크레이프 작업 중 제한 시간입니다.
-
스크레이프 대상에서 반환되는 HTTP 상태 오류입니다.
다음 예제에서는 지표 스크레이핑 프로세스 중에 발생할 수 있는 일반적인 수집기 오류를 보여줍니다.
- 누락된 지표 엔드포인트
-
대상 인스턴스에서
/metrics
엔드포인트를 사용할 수 없는 경우 다음 오류가 발생합니다.{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
- 연결이 거부됨
-
수집기가 대상 엔드포인트에 대한 연결을 설정할 수 없는 경우 다음 오류가 발생합니다.
{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }
내보내기 로그
내보내기 로그는 다음을 포함하여 수집된 지표를 Amazon Managed Service for Prometheus 워크스페이스로 보내는 프로세스에 대한 정보를 제공합니다.
-
처리된 지표 및 데이터 포인트 수입니다.
-
워크스페이스 문제로 인한 내보내기 실패.
-
지표를 작성하려고 할 때 권한 오류가 발생했습니다.
-
내보내기 파이프라인의 종속성 실패입니다.
다음 예제에서는 지표 내보내기 프로세스 중에 발생할 수 있는 일반적인 내보내기 오류를 보여줍니다.
- Workspace를 찾을 수 없음
-
지표 내보내기의 대상 워크스페이스를 찾을 수 없는 경우 다음 오류가 발생합니다.
{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
수집기 판매 로그 이해 및 사용
로그 구조
모든 수집기 벤딩 로그는 다음 필드와 일관된 구조를 따릅니다.
- scrapeConfigId
-
로그를 생성한 스크레이프 구성의 고유 식별자입니다.
- timestamp
-
로그 항목이 생성된 시간입니다.
- message
-
추가 구조화 필드가 포함될 수 있는 로그 메시지 콘텐츠입니다.
- 구성 요소
-
로그를 생성한 구성 요소(SERVICE_DISCOVERY, COLLECTOR 또는 EXPORTER)
문제 해결을 위해 벤딩 로그 사용
수집기 판매 로그는 지표 수집과 관련된 일반적인 문제를 해결하는 데 도움이 됩니다.
-
서비스 검색 문제
-
SERVICE_DISCOVERY 로그에서 인증 또는 권한 오류를 확인합니다.
-
수집기에 Kubernetes 리소스에 액세스하는 데 필요한 권한이 있는지 확인합니다.
-
-
지표 스크레이핑 문제
-
COLLECTOR 로그에서 스크레이프 실패를 확인합니다.
-
대상 엔드포인트에 액세스할 수 있고 지표를 반환하는지 확인합니다.
-
방화벽 규칙이 수집기가 대상 엔드포인트에 연결할 수 있도록 허용하는지 확인합니다.
-
-
지표 내보내기 문제
-
EXPORTER 로그에서 내보내기 실패를 확인합니다.
-
워크스페이스가 존재하고 올바르게 구성되었는지 확인합니다.
-
수집기에 워크스페이스에 쓰는 데 필요한 권한이 있는지 확인합니다.
-
수집기 판매 로그 액세스
수집기 판매 로그는 Amazon CloudWatch Logs로 자동 전송됩니다. 이러한 로그에 액세스하려면:
-
https://console.aws.amazon.com/cloudwatch/
에서 CloudWatch 콘솔을 엽니다. -
탐색 창에서 로그 그룹을 선택합니다.
-
수집기의 로그 그룹를 찾아 선택합니다
/aws/prometheus/workspace_id/collector/collector_id
. -
로그 이벤트를 찾아보거나 검색하여 관련 정보를 찾습니다.
CloudWatch Logs Insights를 사용하여 수집기 로그를 쿼리하고 분석할 수도 있습니다. 예를 들어 모든 서비스 검색 오류를 찾으려면:
fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc
수집기 모니터링 모범 사례
Amazon Managed Service for Prometheus 수집기를 효과적으로 모니터링하려면:
-
영구 스크레이프 실패 또는 내보내기 오류와 같은 중요한 수집기 문제에 대한 CloudWatch 경보를 설정합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서의 경보를 참조하세요.
-
CloudWatch 대시보드를 생성하여 벤딩된 로그 데이터와 함께 수집기 성능 지표를 시각화합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서의 대시보드를 참조하세요.
-
서비스 검색 로그를 정기적으로 검토하여 대상이 올바르게 검색되고 있는지 확인합니다.
-
삭제된 대상 수를 모니터링하여 잠재적 구성 문제를 식별합니다.
-
내보내기 실패를 추적하여 지표가 워크스페이스로 성공적으로 전송되고 있는지 확인합니다.