벤딩 로그를 사용하여 수집기 모니터링 - Amazon Managed Service for Prometheus

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

벤딩 로그를 사용하여 수집기 모니터링

Amazon Managed Service for Prometheus 수집기는 지표 수집 프로세스를 모니터링하고 문제를 해결하는 데 도움이 되는 판매 로그를 제공합니다. 이러한 로그는 Amazon CloudWatch Logs로 자동으로 전송되며 서비스 검색, 지표 수집 및 데이터 내보내기 작업에 대한 가시성을 제공합니다. 수집기는 지표 수집 파이프라인의 세 가지 주요 구성 요소에 대한 로그를 제공합니다.

서비스 검색 로그

서비스 검색 로그는 다음을 포함하여 대상 검색 프로세스에 대한 정보를 제공합니다.

  • Kubernetes API 리소스에 액세스할 때 인증 또는 권한 문제.

  • 서비스 검색 설정의 구성 오류입니다.

다음 예제에서는 서비스 검색 중에 발생할 수 있는 일반적인 인증 및 권한 오류를 보여줍니다.

존재하지 않는 Amazon EKS 클러스터

지정된 Amazon EKS 클러스터가 없는 경우 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
서비스에 대한 잘못된 권한

수집기에 서비스를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 없는 경우 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
엔드포인트에 대한 잘못된 권한

수집기에 엔드포인트를 감시할 수 있는 적절한 역할 기반 액세스 제어(RBAC) 권한이 없는 경우 다음 오류가 발생합니다.

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

수집기 로그

수집기 로그는 다음을 포함하여 지표 스크레이핑 프로세스에 대한 정보를 제공합니다.

  • 엔드포인트를 사용할 수 없어 발생하는 스크레이프 실패.

  • 대상을 스크레이프하려고 할 때 연결 문제가 발생합니다.

  • 스크레이프 작업 중 제한 시간입니다.

  • 스크레이프 대상에서 반환되는 HTTP 상태 오류입니다.

다음 예제에서는 지표 스크레이핑 프로세스 중에 발생할 수 있는 일반적인 수집기 오류를 보여줍니다.

누락된 지표 엔드포인트

대상 인스턴스에서 /metrics 엔드포인트를 사용할 수 없는 경우 다음 오류가 발생합니다.

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
연결이 거부됨

수집기가 대상 엔드포인트에 대한 연결을 설정할 수 없는 경우 다음 오류가 발생합니다.

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

내보내기 로그

내보내기 로그는 다음을 포함하여 수집된 지표를 Amazon Managed Service for Prometheus 워크스페이스로 보내는 프로세스에 대한 정보를 제공합니다.

  • 처리된 지표 및 데이터 포인트 수입니다.

  • 워크스페이스 문제로 인한 내보내기 실패.

  • 지표를 작성하려고 할 때 권한 오류가 발생했습니다.

  • 내보내기 파이프라인의 종속성 실패입니다.

다음 예제에서는 지표 내보내기 프로세스 중에 발생할 수 있는 일반적인 내보내기 오류를 보여줍니다.

Workspace를 찾을 수 없음

지표 내보내기의 대상 워크스페이스를 찾을 수 없는 경우 다음 오류가 발생합니다.

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

수집기 판매 로그 이해 및 사용

로그 구조

모든 수집기 벤딩 로그는 다음 필드와 일관된 구조를 따릅니다.

scrapeConfigId

로그를 생성한 스크레이프 구성의 고유 식별자입니다.

timestamp

로그 항목이 생성된 시간입니다.

message

추가 구조화 필드가 포함될 수 있는 로그 메시지 콘텐츠입니다.

구성 요소

로그를 생성한 구성 요소(SERVICE_DISCOVERY, COLLECTOR 또는 EXPORTER)

문제 해결을 위해 벤딩 로그 사용

수집기 판매 로그는 지표 수집과 관련된 일반적인 문제를 해결하는 데 도움이 됩니다.

  1. 서비스 검색 문제

    • SERVICE_DISCOVERY 로그에서 인증 또는 권한 오류를 확인합니다.

    • 수집기에 Kubernetes 리소스에 액세스하는 데 필요한 권한이 있는지 확인합니다.

  2. 지표 스크레이핑 문제

    • COLLECTOR 로그에서 스크레이프 실패를 확인합니다.

    • 대상 엔드포인트에 액세스할 수 있고 지표를 반환하는지 확인합니다.

    • 방화벽 규칙이 수집기가 대상 엔드포인트에 연결할 수 있도록 허용하는지 확인합니다.

  3. 지표 내보내기 문제

    • EXPORTER 로그에서 내보내기 실패를 확인합니다.

    • 워크스페이스가 존재하고 올바르게 구성되었는지 확인합니다.

    • 수집기에 워크스페이스에 쓰는 데 필요한 권한이 있는지 확인합니다.

수집기 판매 로그 액세스

수집기 판매 로그는 Amazon CloudWatch Logs로 자동 전송됩니다. 이러한 로그에 액세스하려면:

  1. https://console.aws.amazon.com/cloudwatch/에서 CloudWatch 콘솔을 엽니다.

  2. 탐색 창에서 로그 그룹을 선택합니다.

  3. 수집기의 로그 그룹를 찾아 선택합니다/aws/prometheus/workspace_id/collector/collector_id.

  4. 로그 이벤트를 찾아보거나 검색하여 관련 정보를 찾습니다.

CloudWatch Logs Insights를 사용하여 수집기 로그를 쿼리하고 분석할 수도 있습니다. 예를 들어 모든 서비스 검색 오류를 찾으려면:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

수집기 모니터링 모범 사례

Amazon Managed Service for Prometheus 수집기를 효과적으로 모니터링하려면:

  1. 영구 스크레이프 실패 또는 내보내기 오류와 같은 중요한 수집기 문제에 대한 CloudWatch 경보를 설정합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서경보를 참조하세요.

  2. CloudWatch 대시보드를 생성하여 벤딩된 로그 데이터와 함께 수집기 성능 지표를 시각화합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서대시보드를 참조하세요.

  3. 서비스 검색 로그를 정기적으로 검토하여 대상이 올바르게 검색되고 있는지 확인합니다.

  4. 삭제된 대상 수를 모니터링하여 잠재적 구성 문제를 식별합니다.

  5. 내보내기 실패를 추적하여 지표가 워크스페이스로 성공적으로 전송되고 있는지 확인합니다.