使用付費日誌監控收集器 - Amazon Managed Service for Prometheus

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用付費日誌監控收集器

Amazon Managed Service for Prometheus 收集器提供付費日誌,協助您監控指標收集程序並進行疑難排解。這些日誌會自動傳送至 Amazon CloudWatch Logs,並提供服務探索、指標收集和資料匯出操作的可見性。收集器會為指標收集管道的三個主要元件提供日誌:

服務探索日誌

服務探索日誌提供有關目標探索程序的資訊,包括:

  • 存取 Kubernetes API 資源時的身分驗證或許可問題。

  • 服務探索設定中的組態錯誤。

下列範例示範您在服務探索期間可能遇到的常見身分驗證和許可錯誤:

不存在的 Amazon EKS 叢集

當指定的 Amazon EKS 叢集不存在時,您會收到下列錯誤:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source exists." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
無效的 服務許可

當收集器缺少適當的角色型存取控制 (RBAC) 許可來監看 服務時,您會收到此錯誤:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Service - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
端點的無效許可

當收集器缺少適當的角色型存取控制 (RBAC) 許可來監看端點時,您會收到此錯誤:

{ "component": "SERVICE_DISCOVERY", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "log": "Failed to watch Endpoints - Verify your scraper source permissions are valid." }, "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

收集器日誌

收集器日誌提供有關指標抓取程序的資訊,包括:

  • 由於端點無法使用而導致的擴展失敗。

  • 嘗試抓取目標時發生連線問題。

  • 湊集操作期間的逾時。

  • 湊集目標傳回的 HTTP 狀態錯誤。

下列範例示範您在指標抓取過程中可能遇到的常見收集器錯誤:

缺少指標端點

/metrics端點無法在目標執行個體上使用時,您會收到此錯誤:

{ "component": "COLLECTOR", "message": { "log": "Failed to scrape Prometheus endpoint - verify /metrics endpoint is available", "job": "pod_exporter", "targetLabels": "{__name__=\"up\", instance=\10.24.34.0\", job=\"pod_exporter\"}" }, "timestamp": "1752787969551", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }
連線遭拒

當收集器無法建立與目標端點的連線時,您會收到此錯誤:

{ "scrapeConfigId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111", "timestamp": "2025-04-30T17:25:41.946Z", "message": { "message": "Scrape failed", "scrape_pool": "pod_exporter", "target": "http://10.24.34.0:80/metrics", "error": "Get \"http://10.24.34.0:80/metrics\": dial tcp 10.24.34.0:80: connect: connection refused" }, "component": "COLLECTOR" }

匯出工具日誌

匯出者日誌提供有關將收集指標傳送至 Amazon Managed Service for Prometheus 工作區的程序資訊,包括:

  • 處理的指標和資料點數量。

  • 匯出因工作區問題而失敗。

  • 嘗試寫入指標時發生許可錯誤。

  • 匯出管道中的相依性失敗。

下列範例示範在指標匯出程序期間可能遇到的常見匯出工具錯誤:

找不到工作區

當找不到指標匯出的目標工作區時,您會收到此錯誤:

{ "component": "EXPORTER", "message": { "log": "Failed to export to the target workspace - Verify your scraper destination.", "samplesDropped": 5 }, "timestamp": "1752787969664", "scraperId": "s-a1b2c3d4-5678-90ab-cdef-EXAMPLE11111" }

了解和使用收集器提供的日誌

日誌結構

所有收集器提供的日誌都遵循與下列欄位一致的結構:

scrapeConfigId

產生日誌之湊集組態的唯一識別符。

timestamp

產生日誌項目的時間。

message

日誌訊息內容,其中可能包含其他結構化欄位。

元件

產生日誌的元件 (SERVICE_DISCOVERY、COLLECTOR 或 EXPORTER)

使用付費日誌進行故障診斷

收集器提供的日誌可協助您疑難排解指標收集的常見問題:

  1. 服務探索問題

    • 檢查 SERVICE_DISCOVERY 日誌是否有身分驗證或許可錯誤。

    • 確認收集器具有存取 Kubernetes 資源的必要許可。

  2. 指標抓取問題

    • 檢查 COLLECTOR 日誌是否有抓取失敗。

    • 驗證目標端點是否可存取並傳回指標。

    • 確保防火牆規則允許收集器連線到目標端點。

  3. 指標匯出問題

    • 檢查 EXPORTER 日誌是否有匯出失敗。

    • 確認工作區存在且已正確設定。

    • 確保收集器具有寫入工作區的必要許可。

存取收集器提供的日誌

收集器提供的日誌會自動傳送至 Amazon CloudWatch Logs。若要存取這些日誌:

  1. 透過 https://console.aws.amazon.com/cloudwatch/ 開啟 CloudWatch 主控台。

  2. 在導覽窗格中,選擇 Log groups (日誌群組)。

  3. 尋找並選取收集器的日誌群組:/aws/prometheus/workspace_id/collector/collector_id

  4. 瀏覽或搜尋日誌事件以尋找相關資訊。

您也可以使用 CloudWatch Logs Insights 來查詢和分析收集器日誌。例如,若要尋找所有服務探索錯誤:

fields @timestamp, message.message | filter component = "SERVICE_DISCOVERY" and message.message like /Failed/ | sort @timestamp desc

監控收集器的最佳實務

若要有效監控 Amazon Managed Service for Prometheus 收集器:

  1. 針對關鍵收集器問題設定 CloudWatch 警示,例如持久性抓取失敗或匯出錯誤。如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的警示

  2. 建立 CloudWatch 儀表板,以視覺化方式呈現收集器效能指標以及已佈建的日誌資料。如需詳細資訊,請參閱《Amazon CloudWatch 使用者指南》中的儀表板

  3. 定期檢閱服務探索日誌,以確保正確探索目標。

  4. 監控捨棄的目標數量,以識別潛在的組態問題。

  5. 追蹤匯出失敗,以確保指標成功傳送到您的工作區。