View a markdown version of this page

儀表板 - Amazon OpenSearch Service

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

儀表板

儀表板將來自日誌、追蹤和指標的視覺效果合併為單一檢視。您可以使用儀表板來監控營運運作狀態、回應事件,以及追蹤分散式系統的資源使用率。

下表說明儀表板的常見使用案例。

使用案例 範例
操作監控 即時追蹤服務運作狀態、輸送量和錯誤率。
事件回應 在作用中事件期間關聯日誌、追蹤和指標。
容量規劃 監控資源使用率趨勢以規劃擴展。
可用性追蹤 根據服務層級目標測量運作時間和可用性。
事件後檢討 分析歷史資料,以了解過去事件的根本原因。

儀表板結構

儀表板是配置在網格上的面板集合。每個面板都包含下列元件。

  • 資料來源 – 面板查詢的 OpenSearch 索引或 Amazon Managed Service for Prometheus 資料來源。

  • 查詢 – 擷取面板資料的 PPL 或 PromQL 查詢。

  • 視覺化類型 – 用來轉譯查詢結果的圖表類型,例如折線、長條或指標值。

  • 選用組態 – 軸、圖例、閾值和格式選項。

儀表板頂端的時間範圍選擇器會套用至所有面板。您可以視需要覆寫個別面板的時間範圍。

從 Discover 建置儀表板

建置儀表板的建議工作流程從探索開始。此工作流程在日誌、追蹤和指標之間保持一致。

  1. 探索中查詢您的資料 – 導覽至探索日誌、探索追蹤或探索指標,並使用 PPL (適用於日誌和追蹤) 或 PromQL (適用於指標) 撰寫查詢。

  2. 建置視覺化 – 當您的查詢傳回結果時,請使用視覺化索引標籤來選擇圖表類型並設定顯示。對於日誌和追蹤查詢,彙總 等命令stats會自動切換到視覺化檢視。

  3. 儲存至儀表板 – 選擇新增至儀表板,將視覺效果儲存至新的或現有的儀表板。面板會保持即時狀態,並在新資料送達時更新。

  4. 反覆 – 針對您希望儀表板回答的每個問題重複此步驟。當儀表板上發生錯誤時,請選擇任何面板,在探索中開啟基礎查詢以進行進一步調查。

重要

透過 OpenSearch UI 中的視覺化頁面建立的視覺化使用 DQL (儀表板查詢語言) 和 DSL (網域特定語言),目前不支援 Piped Processing Language (PPL)。若要建立 PPL 型視覺化效果,請使用上述的探索工作流程。

儀表板篩選條件

篩選條件可讓您縮小儀表板上所有面板顯示的資料,而無需編輯個別查詢。

新增篩選條件

  1. 開啟您要篩選的儀表板。

  2. 篩選條件列中選擇新增篩選條件。

  3. 從下拉式清單中選取欄位名稱。

  4. 選取運算子並輸入值。

  5. 選擇儲存

下表說明常見的篩選條件使用案例。

案例 欄位 運算子 Value
檢視單一環境 environment is production
隔離錯誤 status_code is greater than or equal to 400
專注於特定服務 service.name is order-service
排除運作狀態檢查 http.url is not /health

相較於未鎖定的篩選條件,鎖定的篩選條件會在您在儀表板之間導覽時持續存在。未鎖定的篩選條件僅適用於目前的儀表板。若要固定篩選條件,請選擇篩選條件徽章旁的固定圖示。

建置儀表板

視覺化類型

下表說明儀表板面板可用的視覺化類型。

Type 使用案例
折線圖 隨時間變化的趨勢,例如請求率或延遲
區域圖 具有堆疊明細的隨時間變化的磁碟區
長條圖 比較跨類別的值
水平列 排名比較,例如依錯誤計數排序的熱門服務
資料表 具有排序和分頁的表格式資料
指標值 單一金鑰效能指標,例如請求總數
量測計 達到閾值的進度,例如 CPU 使用率
圓餅圖 合成和比例,例如依區域的流量
熱度圖 兩個維度的密度和分佈模式
標記雲端 相對的詞彙頻率,例如常見的錯誤訊息

設定面板

每個面板都有一個查詢編輯器,您可以在其中撰寫 PPL 或 PromQL 查詢。下列範例顯示常見的面板查詢。

依服務 (PPL) 的錯誤計數:

source = logs-dataset | where severity_text = 'ERROR' | stats count() as error_count by service_name, span(timestamp, 5m)

CPU 使用率 (PromQL):

rate(container_cpu_usage_seconds_total{namespace="production"}[5m])

您也可以設定下列面板選項。

  • – 設定軸標籤、縮放 (線性或對數) 和值範圍。

  • 圖例 – 控制圖例位置和要顯示的序列。

  • 閾值 – 新增水平閾值線以反白顯示警告或關鍵層級。

配置秘訣

使用下列秘訣來有效整理儀表板面板。

  • 將高階摘要面板 (指標值、量測計) 放在儀表板頂端。

  • 將相關面板分組在一起,例如單一服務的所有面板。

  • 對同一列中的面板使用一致的寬度。

  • 拖曳面板邊緣以調整大小,然後拖曳面板標頭以調整位置。

下表說明常見儀表板類型的建議面板配置。

服務運作狀態儀表板

面板 視覺化類型
請求率 折線圖
錯誤率 折線圖
P99 延遲 折線圖
作用中提醒 指標值
依服務排序的熱門錯誤 水平列

事件回應儀表板

面板 視覺化類型
錯誤日誌 資料表
隨時間變化的錯誤計數 區域圖
受影響的服務 圓餅圖
延遲峰值 折線圖

資源使用率儀表板

面板 視覺化類型
CPU 使用率 量測計
一段時間內的記憶體用量 區域圖
磁碟 I/O 資料 折線圖
網路輸送量 折線圖

時間範圍控制項

儀表板頂端的時間範圍選擇器會控制所有面板的時間範圍。您可以選取預設範圍 (例如過去 15 分鐘過去 24 小時) 或指定自訂絕對範圍。

若要啟用自動重新整理,請選擇時間範圍選擇器旁的重新整理間隔下拉式清單,然後選取間隔。自動重新整理會以指定的間隔重新執行所有面板查詢,讓您的儀表板顯示最新的資料。

共用儀表板

您可以透過 URLs、快照和匯出,與組織中的其他使用者共用儀表板。

透過 URL 共用

從瀏覽器地址列複製儀表板 URL 並直接共用。URL 會保留目前的時間範圍和篩選條件。您可以在書籤、執行手冊或事件回應文件中包含儀表板連結。

快照

快照會擷取儀表板在特定時間點的目前狀態,包括所有面板資料。快照是唯讀的,不會在基礎資料變更時更新。使用快照在事件或檢閱期間保留儀表板狀態的記錄。

匯入和匯出定義

您可以將儀表板定義匯出為 JSON,並將其匯入至另一個工作區或環境。此方法有助於將儀表板從開發提升到生產,或跨團隊共用標準配置。

共用的最佳實務

  • 對象 – 為特定對象設計儀表板,例如待命工程師或領導層。

  • 重點 – 將每個儀表板限制為單一用途或工作流程。

  • 慣例 – 在整個組織中使用一致的儀表板和面板命名慣例。

  • 版本控制 – 匯出儀表板 JSON 定義並將其存放在版本控制中,以追蹤隨時間的變化。

故障診斷儀表板

本節說明常見的儀表板問題,以及如何解決這些問題。

面板中沒有資料

如果面板未顯示任何資料,請檢查下列常見原因。

原因 Check 修正
時間範圍太窄 確認儀表板時間範圍涵蓋擷取資料的期間。 展開時間範圍或選取過去 24 小時
排除資料的作用中篩選條件 檢閱篩選條件列,找出可能排除所有相符文件的篩選條件。 移除或調整篩選條件,然後驗證資料是否出現。
索引模式不正確 確認面板資料來源指向包含資料的索引。 在面板編輯器中將資料來源更新為正確的索引模式。
查詢語法錯誤 在面板標頭或查詢編輯器中尋找錯誤訊息。 更正 PPL 或 PromQL 語法,並重新執行查詢。

面板中的資料錯誤

如果面板顯示未預期的結果,請嘗試下列步驟。

  • 先在探索中執行查詢,確認查詢傳回預期的欄位。

  • 檢查視覺化類型是否符合資料形狀 (例如,針對時間序列資料使用折線圖)。

  • 在面板編輯器中確認已選取正確的資料來源。

過時的資料

如果儀表板面板顯示過時的資訊,請嘗試下列步驟。

  • 選擇工具列中的重新整理圖示,以手動重新整理所有面板。

  • 確認已啟用自動重新整理,並設定為適當的間隔。

  • 確認您的擷取管道正在主動將資料傳送至設定的索引。

效能問題

下列秘訣可協助您解決常見的效能問題。

  • 慢速儀表板 – 減少面板數量或縮小時間範圍。具有許多面板的儀表板會同時執行多個查詢,這可能會增加載入時間。

  • 慢速面板 – 簡化面板查詢。避免在 PPL where子句中使用萬用字元模式,並限制彙總儲存貯體的數量。

  • 瀏覽器延遲 – 降低視覺效果中的資料密度。例如,增加stats命令中的時間範圍間隔,以產生較少的資料點。

篩選問題

如果篩選條件的行為不如預期,請嘗試下列步驟。

  • 確認篩選條件中的欄位名稱符合索引映射中的欄位名稱。

  • 檢查來自另一個儀表板的固定篩選條件是否會影響結果。

  • 移除所有篩選條件,並一次新增一個篩選條件,以隔離問題。

檢查面板

面板檢測器可協助您偵錯資料和查詢問題。若要開啟檢測器,請選擇面板功能表 (三個點),然後選取檢查。檢測器提供下列索引標籤。

  • 資料 – 以表格格式顯示查詢傳回的原始資料。

  • 請求 – 顯示傳送至資料來源的查詢,包括完整的 PPL 或 PromQL 陳述式。

  • 回應 – 顯示資料來源的原始回應,包括時間和狀態資訊。

瀏覽器開發人員工具

如需進階故障診斷,請使用您的瀏覽器開發人員工具來檢查網路請求。開啟網路索引標籤,篩選 API 呼叫,並尋找失敗的請求或慢速回應。檢查回應內文是否有可協助您識別根本原因的錯誤訊息。