OPS08-BP04 建立可付諸行動的警示 - AWS Well-Architected 架構

OPS08-BP04 建立可付諸行動的警示

及時偵測並回應應用程式行為偏差的情況,是相當重要的一環。尤其重要的是,能夠辨識以關鍵績效指標 (KPI) 為基礎的成果何時存在風險,或何時出現非預期的異常狀況。以 KPI 做為警示的基礎,可確保您收到的訊號與業務或營運影響直接相關。這種可付諸行動的警示可推動主動回應,且有助於維持系統效能和可靠性。

期望的結果:接收及時、相關且可付諸行動的警示,以便迅速找出並緩解潛在問題,尤其是 KPI 成果存在風險時。

常見的反模式:

  • 設定太多非嚴重警示,導致警示疲勞。

  • 未根據 KPI 排定警示的優先順序,因此難以了解問題對業務造成的影響。

  • 忽略解決根本原因,導致一再出現相同問題的警示。

建立此最佳實務的優勢:

  • 專注於可付諸行動且相關的警示,以減少警示疲勞的情況。

  • 透過主動偵測和緩解問題,改善系統運作時間和可靠性。

  • 透過整合熱門的警示和通訊工具,強化團隊協作並加快問題解決速度。

未建立此最佳實務時的風險暴露等級:

實作指引

若要建立有效的警示機制,則務必使用指標、日誌和追蹤資料,因為這些資料會在 KPI 為基礎的成果存在風險或偵測到異常時發出訊號。

實作步驟

  1. 確定關鍵績效指標 (KPI):識別應用程式的 KPI。警示應與這些 KPI 密切相關,才能準確反映業務影響。

  2. 實作異常偵測

    • 使用 Amazon CloudWatch 異常偵測:設定 Amazon CloudWatch 異常偵測以自動偵測不尋常模式,協助您只產生真正的異常警示。

    • 使用 AWS X-Ray Insights

      1. 設定 X-Ray Insights 以偵測追蹤資料中的異常情況。

      2. 設定 X-Ray Insights 的通知,以便在偵測到問題時發出警示。

    • 與 Amazon DevOps Guru 整合

      1. 利用 Amazon DevOps Guru 的機器學習功能來偵測現有資料中的操作異常狀況。

      2. 瀏覽至 DevOps Guru 中的通知設定以設定異常警示。

  3. 實作可行的警示:設計提供足夠資訊的警示,以便於立即採取行動。

    1. 監控使用 Amazon EventBridge 規則的 AWS Health 事件,或以程式設計方式與 AWS Health API 整合,以在收到 AWS Health 事件時自動執行動作。這些可能是一般動作 (例如將所有計畫的生命週期事件訊息傳送到聊天介面) 或特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

  4. 減少警示疲勞:將非重要警示減到最少。若產生大量不重要的警示使團隊疲於奔命,團隊會疏忽嚴重的問題,而降低警示機制的整體效用。

  5. 設定複合警示:使用 Amazon CloudWatch 複合警示可合併多個警示。

  6. 與提醒工具整合:結合 Ops GeniePagerDuty 等工具。

  7. 與 AWS Chatbot「接合 」:整合 AWS Chatbot 以將警示轉送到 Amazon Chime、Microsoft Teams 和 Slack。

  8. 基於日誌的提醒:使用 CloudWatch 中的日誌指標篩選條件,根據特定日誌事件建立警示。

  9. 檢閱和迭代:定期重新檢視並改善警示組態。

實作計畫的工作量:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: