本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
OPS08-BP04 建立可操作的警示
及時偵測並回應您的應用程式行為中的偏差至關重要。尤其重要的是根據關鍵績效指標 (KPIs) 來識別結果處於風險狀態或出現非預期異常時。開啟警示KPIs可確保您收到的訊號直接與業務或營運影響相關聯。這種可採取動作的提醒方法可促進主動回應,並有助於維持系統效能與可靠性。
預期結果:接收及時、相關且可採取行動的提醒,以快速識別和緩解潛在問題,特別是當KPI結果處於風險時。
常見的反模式:
-
設定太多非嚴重性提醒會導致提醒疲勞。
-
不根據 排定警示的優先順序KPIs,因此很難了解問題的業務影響。
-
忽視解決根本原因導致同一問題的重複提醒。
建立此最佳實務的優勢:
-
透過專注於可操作且相關的提醒來減少提醒疲勞。
-
透過主動偵測和緩解問題,改善系統運作時間和可靠性。
-
透過與熱門的提醒和通訊工具整合,強化團隊協同作業並加快解決問題的速度。
未建立此最佳實務時的曝險等級:高
實作指引
若要建立有效的警示機制,請務必使用指標、日誌和追蹤資料,在偵測到基於 的結果KPIs處於風險或異常時標記。
實作步驟
-
判斷關鍵效能指標 (KPIs):識別應用程式的 KPIs。警示應與這些警示相關聯,KPIs以準確反映業務影響。
-
實作異常偵測:
-
使用 Amazon CloudWatch 異常偵測 :設定 Amazon CloudWatch 異常偵測以自動偵測異常模式,這可協助您僅產生真實異常的警示。
-
使用 AWS X-Ray Insights:
-
設定 X-Ray Insights 以偵測追蹤資料中的異常。
-
設定 X-Ray Insights 的通知,以便在偵測到問題時收到提醒。
-
-
與 Amazon DevOpsGuru 整合:
-
利用 Amazon DevOpsGuru
的機器學習功能來偵測現有資料的操作異常。 -
導覽至 DevOpsGuru 中的通知設定,以設定異常警示。
-
-
-
實作可執行的提醒:設計提醒,為立即採取行動提供足夠資訊。
-
AWS Health 使用 Amazon EventBridge 規則 監控事件,或以程式設計方式與 整合, AWS Health API以便在您接收 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。
-
-
減少提醒疲勞:將非嚴重性提醒降至最低。當團隊對眾多微不足道的提醒感到不知所措時,他們可能會失去對重大問題的監督,從而降低提醒機制的整體有效性。
-
設定複合警示 :使用 Amazon CloudWatch 複合警示
來合併多個警示。 -
使用 AWS Chatbot:整合AWS Chatbot
以將警示轉送至 Amazon Chime、Microsoft Teams 和 Slack。 -
基於日誌的警示:使用 中的日誌指標篩選條件 CloudWatch ,根據特定日誌事件建立警示。
-
審查並反覆:定期重新檢視並調整提醒組態。
實作計劃的工作量:中
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例: