Monitora i raccoglitori con tronchi venduti - Amazon Managed Service per Prometheus

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Monitora i raccoglitori con tronchi venduti

I collezionisti di Amazon Managed Service for Prometheus forniscono log venduti per aiutarti a monitorare e risolvere i problemi del processo di raccolta delle metriche. Questi log vengono inviati automaticamente ad Amazon CloudWatch Logs e forniscono visibilità sulla scoperta dei servizi, sulla raccolta delle metriche e sulle operazioni di esportazione dei dati. Il raccoglitore invia i log per tre componenti principali della pipeline di raccolta delle metriche:

Registri di rilevamento dei servizi

I log di rilevamento dei servizi forniscono informazioni sul processo di individuazione delle destinazioni, tra cui:

  • Problemi di autenticazione o autorizzazione durante l'accesso alle risorse dell'API Kubernetes.

  • Errori di configurazione nelle impostazioni di rilevamento dei servizi.

Gli esempi seguenti illustrano gli errori di autenticazione e autorizzazione comuni che potrebbero verificarsi durante l'individuazione del servizio:

Cluster Amazon EKS inesistente

Quando il cluster Amazon EKS specificato non esiste, ricevi il seguente errore:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Autorizzazioni non valide per i servizi

Quando il raccoglitore non dispone delle autorizzazioni RBAC (Role-Based Access Control) adeguate per guardare i servizi, viene visualizzato questo errore:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Autorizzazioni non valide per gli endpoint

Quando il raccoglitore non dispone delle autorizzazioni RBAC (Role-Based Access Control) adeguate per controllare gli endpoint, viene visualizzato questo errore:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Registri di Collector

I log di Collector forniscono informazioni sul processo di analisi metrica, tra cui:

  • Errori di scraping dovuti alla mancata disponibilità degli endpoint.

  • Problemi di connessione durante il tentativo di scraping degli obiettivi.

  • Timeout durante le operazioni di scrape.

  • Errori di stato HTTP restituiti dagli obiettivi dello scrape.

Gli esempi seguenti illustrano gli errori più comuni del raccoglitore che potresti riscontrare durante il processo di analisi delle metriche:

Endpoint con metriche mancanti

Quando l'/metricsendpoint non è disponibile sull'istanza di destinazione, viene visualizzato questo errore:

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Connessione rifiutata

Quando il raccoglitore non riesce a stabilire una connessione all'endpoint di destinazione, viene visualizzato questo errore:

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

Registri dell'esportatore

I log di Exporter forniscono informazioni sul processo di invio delle metriche raccolte al tuo spazio di lavoro Amazon Managed Service for Prometheus, tra cui:

  • Numero di metriche e punti dati elaborati.

  • Errori di esportazione dovuti a problemi relativi all'area di lavoro.

  • Errori di autorizzazione durante il tentativo di scrivere metriche.

  • Errori di dipendenza nella pipeline di esportazione.

L'esempio seguente mostra un errore comune dell'esportatore che potresti riscontrare durante il processo di esportazione delle metriche:

Spazio di lavoro non trovato

Quando non è possibile trovare l'area di lavoro di destinazione per l'esportazione delle metriche, viene visualizzato questo errore:

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Comprensione e utilizzo dei log venduti da collezione

Struttura dei log

Tutti i log venduti da collector seguono una struttura coerente con questi campi:

scrapeConfigId

L'identificatore univoco della configurazione dello scrape che ha generato il log.

timestamp

L'ora in cui è stata generata la voce di registro.

message

Il contenuto del messaggio di registro, che può includere campi strutturati aggiuntivi.

componente

Il componente che ha generato il registro (SERVICE_DISCOVERY, COLLECTOR o EXPORTER)

Utilizzo dei log forniti per la risoluzione dei problemi

I collector vended logs ti aiutano a risolvere i problemi più comuni relativi alla raccolta delle metriche:

  1. Problemi relativi all'individuazione dei servizi

    • Controlla i log di SERVICE_DISCOVERY per eventuali errori di autenticazione o autorizzazione.

    • Verifica che il raccoglitore disponga delle autorizzazioni necessarie per accedere alle risorse Kubernetes.

  2. Problemi di scraping metrico

    • Controlla i log di COLLECTOR per eventuali errori di scraping.

    • Verifica che gli endpoint di destinazione siano accessibili e restituiscano metriche.

    • Assicurati che le regole del firewall consentano al raccoglitore di connettersi agli endpoint di destinazione.

  3. Problemi di esportazione delle metriche

    • Controlla i log di EXPORTER per eventuali errori di esportazione.

    • Verificate che l'area di lavoro esista e sia configurata correttamente.

    • Assicurati che il raccoglitore disponga delle autorizzazioni necessarie per scrivere nell'area di lavoro.

Accesso ai log venduti da Collector

I log venduti da Collector vengono inviati automaticamente ad Amazon Logs. CloudWatch Per accedere a questi log:

  1. Apri la CloudWatch console all'indirizzo https://console.aws.amazon.com/cloudwatch/.

  2. Nel pannello di navigazione, selezionare Log groups (Gruppi di log).

  3. Trova e seleziona il gruppo di log per il tuo raccoglitore:/aws/prometheus/workspace_id/collector/collector_id.

  4. Sfoglia o cerca gli eventi del registro per trovare le informazioni pertinenti.

Puoi anche utilizzare CloudWatch Logs Insights per interrogare e analizzare i log di Collector. Ad esempio, per trovare tutti gli errori di rilevamento dei servizi:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

Le migliori pratiche per il monitoraggio dei raccoglitori

Per monitorare efficacemente il tuo Amazon Managed Service for Prometheus Collector:

  1. Imposta CloudWatch allarmi per problemi critici relativi ai raccoglitori, come errori persistenti di scrape o errori di esportazione. Per ulteriori informazioni, consulta Allarmi nella Amazon CloudWatch User Guide.

  2. Crea CloudWatch dashboard per visualizzare le metriche delle prestazioni dei raccoglitori insieme ai dati di registro venduti. Per ulteriori informazioni, consulta Dashboards nella Amazon CloudWatch User Guide.

  3. Esamina regolarmente i log di rilevamento dei servizi per assicurarti che gli obiettivi vengano scoperti correttamente.

  4. Monitora il numero di obiettivi eliminati per identificare potenziali problemi di configurazione.

  5. Tieni traccia degli errori di esportazione per assicurarti che le metriche vengano inviate correttamente al tuo spazio di lavoro.