Monitore coletores com troncos vendidos - Amazon Managed Service para Prometheus

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Monitore coletores com troncos vendidos

Os coletores do Amazon Managed Service para Prometheus fornecem registros vendidos para ajudar você a monitorar e solucionar problemas no processo de coleta de métricas. Esses registros são enviados automaticamente para o Amazon CloudWatch Logs e fornecem visibilidade das operações de descoberta de serviços, coleta de métricas e exportação de dados. O coletor vende registros para três componentes principais do pipeline de coleta de métricas:

Registros de descoberta de serviços

Os registros de descoberta de serviços fornecem informações sobre o processo de descoberta de destino, incluindo:

  • Problemas de autenticação ou permissão ao acessar os recursos da API Kubernetes.

  • Erros de configuração nas configurações de descoberta de serviços.

Os exemplos a seguir demonstram erros comuns de autenticação e permissão que você pode encontrar durante a descoberta do serviço:

Cluster Amazon EKS inexistente

Quando o cluster Amazon EKS especificado não existe, você recebe o seguinte erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Permissões inválidas para serviços

Quando o coletor não tem as permissões adequadas de Controle de Acesso Baseado em Função (RBAC) para monitorar os Serviços, você recebe este erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Permissões inválidas para endpoints

Quando o coletor não tem as permissões adequadas de controle de acesso baseado em função (RBAC) para monitorar os endpoints, você recebe este erro:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Registros do coletor

Os registros do coletor fornecem informações sobre o processo de raspagem métrica, incluindo:

  • Raspe as falhas devido à indisponibilidade dos terminais.

  • Problemas de conexão ao tentar raspar alvos.

  • Tempos limite durante as operações de raspagem.

  • Erros de status HTTP retornados por alvos de raspagem.

Os exemplos a seguir demonstram erros comuns do coletor que você pode encontrar durante o processo de coleta de métricas:

Endpoint de métricas ausente

Quando o /metrics endpoint não está disponível na instância de destino, você recebe este erro:

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
Conexão recusada

Quando o coletor não consegue estabelecer uma conexão com o endpoint de destino, você recebe este erro:

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

Registros do exportador

Os registros do exportador fornecem informações sobre o processo de envio das métricas coletadas para seu espaço de trabalho do Amazon Managed Service for Prometheus, incluindo:

  • Número de métricas e pontos de dados processados.

  • Falhas na exportação devido a problemas no espaço de trabalho.

  • Erros de permissão ao tentar escrever métricas.

  • Falhas de dependência no pipeline de exportação.

O exemplo a seguir demonstra um erro comum do exportador que você pode encontrar durante o processo de exportação de métricas:

Espaço de trabalho não encontrado

Quando o espaço de trabalho de destino para exportação de métricas não pode ser encontrado, você recebe este erro:

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

Entendendo e usando registros vendidos por coletores

Estrutura de log

Todos os registros vendidos pela Collector seguem uma estrutura consistente com esses campos:

scrapeConfigId

O identificador exclusivo da configuração de raspagem que gerou o registro.

timestamp

A hora em que a entrada de registro foi gerada.

mensagem

O conteúdo da mensagem de registro, que pode incluir campos estruturados adicionais.

componente

O componente que gerou o log (SERVICE_DISCOVERY, COLLECTOR ou EXPORTER)

Usando registros vendidos para solução de problemas

Os registros vendidos do coletor ajudam você a solucionar problemas comuns com a coleta de métricas:

  1. Problemas de descoberta de serviços

    • Verifique os registros do SERVICE_DISCOVERY em busca de erros de autenticação ou permissão.

    • Verifique se o coletor tem as permissões necessárias para acessar os recursos do Kubernetes.

  2. Problemas de raspagem métrica

    • Verifique se há falhas de raspagem nos registros do COLLECTOR.

    • Verifique se os endpoints de destino estão acessíveis e retornam métricas.

    • Certifique-se de que as regras de firewall permitam que o coletor se conecte aos endpoints de destino.

  3. Problemas de exportação de métricas

    • Verifique se há falhas na exportação nos registros do EXPORTER.

    • Verifique se o espaço de trabalho existe e está configurado corretamente.

    • Certifique-se de que o coletor tenha as permissões necessárias para gravar no espaço de trabalho.

Acessando registros vendidos pelo coletor

Os registros vendidos pelo Collector são enviados automaticamente para a Amazon CloudWatch Logs. Para acessar esses registros:

  1. Abra o CloudWatch console em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação, escolha Grupos de logs.

  3. Encontre e selecione o grupo de registros para seu coletor:/aws/prometheus/workspace_id/collector/collector_id.

  4. Navegue ou pesquise os eventos do registro para encontrar informações relevantes.

Você também pode usar o CloudWatch Logs Insights para consultar e analisar seus registros do coletor. Por exemplo, para encontrar todos os erros de descoberta de serviços:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

Melhores práticas para monitorar coletores

Para monitorar com eficácia seu Amazon Managed Service para coletores do Prometheus:

  1. Configure CloudWatch alarmes para problemas críticos do coletor, como falhas persistentes de raspagem ou erros de exportação. Para obter mais informações, consulte Alarmes no Guia do CloudWatch usuário da Amazon.

  2. Crie CloudWatch painéis para visualizar as métricas de desempenho do coletor junto com os dados de log vendidos. Para obter mais informações, consulte Painéis no Guia do CloudWatch usuário da Amazon.

  3. Analise regularmente os registros de descoberta de serviços para garantir que os alvos sejam descobertos corretamente.

  4. Monitore o número de alvos eliminados para identificar possíveis problemas de configuração.

  5. Acompanhe as falhas de exportação para garantir que as métricas sejam enviadas com sucesso ao seu espaço de trabalho.