Journaux de découverte des services Journaux de collecte Journaux des exportateurs Comprendre et utiliser les journaux vendus par des collectionneurs

Surveillez les collecteurs à l'aide de journaux vendus

Amazon Managed Service for Prometheus Collectors fournit des journaux vendus pour vous aider à surveiller et à résoudre les problèmes liés au processus de collecte des métriques. Ces journaux sont automatiquement envoyés à Amazon CloudWatch Logs et fournissent une visibilité sur les opérations de découverte de services, de collecte de métriques et d'exportation de données. Le collecteur vend des journaux pour trois composants principaux du pipeline de collecte de mesures :

Rubriques

Journaux de découverte des services
Journaux de collecte
Journaux des exportateurs
Comprendre et utiliser les journaux vendus par des collectionneurs

Journaux de découverte des services

Les journaux de découverte de services fournissent des informations sur le processus de découverte de la cible, notamment :

Problèmes d'authentification ou d'autorisation lors de l'accès aux ressources de l'API Kubernetes.
Erreurs de configuration dans les paramètres de découverte des services.

Les exemples suivants illustrent les erreurs d'authentification et d'autorisation courantes que vous pouvez rencontrer lors de la découverte de services :

Cluster Amazon EKS inexistant

Lorsque le cluster Amazon EKS spécifié n'existe pas, le message d'erreur suivant s'affiche :


{
  "component": "SERVICE_DISCOVERY",
  "timestamp": "2025-04-30T17:25:41.946Z",
  "message": {
    "log": "Failed to watch Service - Verify your scraper source exists."
  },
  "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111"
}

Autorisations non valides pour les services

Lorsque le collecteur ne dispose pas des autorisations de contrôle d'accès basé sur les rôles (RBAC) appropriées pour surveiller les services, le message d'erreur suivant s'affiche :


{
  "component": "SERVICE_DISCOVERY",
  "timestamp": "2025-04-30T17:25:41.946Z",
  "message": {
    "log": "Failed to watch Service - Verify your scraper source permissions are valid."
  },
  "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111"
}

Autorisations non valides pour les terminaux

Lorsque le collecteur ne dispose pas des autorisations appropriées de contrôle d'accès basé sur les rôles (RBAC) pour surveiller les points de terminaison, le message d'erreur suivant s'affiche :


{
  "component": "SERVICE_DISCOVERY",
  "timestamp": "2025-04-30T17:25:41.946Z",
  "message": {
    "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid."
  },
  "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111"
}

Journaux de collecte

Les journaux du collecteur fournissent des informations sur le processus de scraping métrique, notamment :

Supprimez les défaillances dues à l'indisponibilité des terminaux.
Problèmes de connexion lors de la tentative de capture de cibles.
Délais d'attente pendant les opérations de raclage.
Erreurs d'état HTTP renvoyées par les cibles Scrape.

Les exemples suivants illustrent les erreurs de collecteur courantes que vous pouvez rencontrer lors du processus de capture des métriques :

Point de terminaison des métriques manquant

Lorsque le /metrics point de terminaison n'est pas disponible sur l'instance cible, le message d'erreur suivant s'affiche :


{
    "component": "COLLECTOR",
    "message": {
        "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available",
        "job": "pod_exporter",
        "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}"
    },
    "timestamp": "1752787969551",
    "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111"
}

Connexion refusée

Lorsque le collecteur ne parvient pas à établir une connexion avec le point de terminaison cible, le message d'erreur suivant s'affiche :


{
  "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111",
  "timestamp": "2025-04-30T17:25:41.946Z",
  "message": {
    "message": "Scrape failed",
    "scrape_pool": "pod_exporter",
    "target": "http://10.24.34.0:80/metrics",
    "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused"
  },
  "component": "COLLECTOR"
}

Journaux des exportateurs

Les journaux des exportateurs fournissent des informations sur le processus d'envoi des métriques collectées à votre espace de travail Amazon Managed Service for Prometheus, notamment :

Nombre de mesures et de points de données traités.
Échecs d'exportation dus à des problèmes d'espace de travail.
Erreurs d'autorisation lors de la tentative d'écriture de métriques.
Défaillances de dépendance dans le pipeline d'exportation.

L'exemple suivant illustre une erreur d'exportation courante que vous pouvez rencontrer lors du processus d'exportation des métriques :

Espace de travail introuvable

Lorsque l'espace de travail cible pour l'exportation des métriques est introuvable, le message d'erreur suivant s'affiche :


{
    "component": "EXPORTER",
    "message": {
        "log": "Failed to export to the target workspace - Verify your scraper destination.",
        "samplesDropped": 5
    },
    "timestamp": "1752787969664",
    "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111"
}

Comprendre et utiliser les journaux vendus par des collectionneurs

Structure du journal

Tous les journaux vendus par des collectionneurs suivent une structure cohérente avec les champs suivants :

scrapeConfigId: Identifiant unique de la configuration de scrape qui a généré le journal.
timestamp: Heure à laquelle l'entrée du journal a été générée.
message: Le contenu du message du journal, qui peut inclure des champs structurés supplémentaires.
composant: Le composant qui a généré le journal (SERVICE_DISCOVERY, COLLECTOR ou EXPORTER)

Utilisation des journaux vendus pour le dépannage

Les journaux vendus par le collecteur vous aident à résoudre les problèmes courants liés à la collecte des métriques :

Problèmes liés à la découverte de services
- Vérifiez les journaux SERVICE_DISCOVERY pour détecter les erreurs d'authentification ou d'autorisation.
- Vérifiez que le collecteur dispose des autorisations nécessaires pour accéder aux ressources Kubernetes.
Problèmes liés au scraping métrique
- Consultez les journaux COLLECTOR pour détecter les défaillances liées au scrapage.
- Vérifiez que les points de terminaison cibles sont accessibles et renvoient des métriques.
- Assurez-vous que les règles de pare-feu autorisent le collecteur à se connecter aux points de terminaison cibles.
Problèmes d'exportation de données métriques
- Vérifiez les journaux de l'EXPORTATEUR pour détecter les échecs d'exportation.
- Vérifiez que l'espace de travail existe et qu'il est correctement configuré.
- Assurez-vous que le collecteur dispose des autorisations nécessaires pour écrire dans l'espace de travail.

Accès aux journaux vendus par les collecteurs

Les journaux vendus par Collector sont automatiquement envoyés à Amazon CloudWatch Logs. Pour accéder à ces journaux :

Ouvrez la CloudWatch console à l'adresse https://console.aws.amazon.com/cloudwatch/.
Dans le panneau de navigation, choisissez Groupes de journaux.
Recherchez et sélectionnez le groupe de journaux pour votre collecteur :/aws/prometheus/workspace_id/collector/collector_id.
Parcourez ou recherchez les événements du journal pour trouver des informations pertinentes.

Vous pouvez également utiliser CloudWatch Logs Insights pour interroger et analyser les journaux de vos collecteurs. Par exemple, pour rechercher toutes les erreurs de découverte de services :


fields @timestamp, message.message
| filter component = "SERVICE_DISCOVERY" and message.message like /Failed/
| sort @timestamp desc

Bonnes pratiques pour la surveillance des collecteurs

Pour surveiller efficacement votre Amazon Managed Service pour les collectionneurs Prometheus :

Configurez des CloudWatch alarmes pour les problèmes critiques du collecteur, tels que les défaillances persistantes de raclage ou les erreurs d'exportation. Pour plus d'informations, consultez la section Alarmes du guide de CloudWatch l'utilisateur Amazon.
Créez des CloudWatch tableaux de bord pour visualiser les indicateurs de performance des collecteurs ainsi que les données des journaux vendus. Pour plus d'informations, consultez la section Tableaux de bord du guide de l' CloudWatch utilisateur Amazon.
Consultez régulièrement les journaux de découverte des services pour vous assurer que les cibles sont correctement découvertes.
Surveillez le nombre de cibles abandonnées pour identifier les problèmes de configuration potentiels.
Suivez les échecs d'exportation pour vous assurer que les métriques sont correctement envoyées à votre espace de travail.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Métriques compatibles avec Prometheus

Collecteurs gérés par le client