OPS08-BP04 建立可執行的提醒

及時偵測並回應您的應用程式行為中的偏差至關重要。尤其重要的是要了解基於關鍵績效指標 (KPI) 的結果何時處於危險之中，或者何時出現意外異常。以 KPI 為基礎的提醒可確保您收到的訊號直接與業務或營運影響產生關係。這種可採取動作的提醒方法可促進主動回應，並有助於維持系統效能與可靠性。

預期成果：接收及時、相關且可行的提醒，以便快速識別和緩解潛在問題，尤其是在 KPI 結果面臨風險時。

常見的反模式：

設定太多非嚴重性提醒會導致提醒疲勞。
不會根據 KPI 來排定提醒的優先順序，因此難以了解問題的業務影響。
忽視解決根本原因導致同一問題的重複提醒。

建立此最佳實務的優勢：

透過專注於可操作且相關的提醒來減少提醒疲勞。
透過主動偵測和緩解問題，改善系統運作時間和可靠性。
透過與熱門的提醒和通訊工具整合，強化團隊協同作業並加快解決問題的速度。

未建立此最佳實務時的曝險等級：高

實作指引

若要建立有效的提醒機制，使用指標、日誌和追蹤資料至關重要，其會在基於 KPI 的結果出現風險或偵測到異常時進行標記。

實作步驟

確定關鍵績效指標 (KPI)：確定應用程式的 KPI。提醒應與這些關鍵績效指標相關聯，以準確反映業務影響。
實作異常偵測：
- 使用 Amazon CloudWatch 異常偵測：設定 Amazon CloudWatch 異常偵測以自動偵測異常模式，這可協助您僅針對真正的異常產生提醒。
- 使用 AWS X-Ray Insights：
  1. 設定 X-Ray Insights 以偵測追蹤資料中的異常。
  2. 設定 X-Ray Insights 的通知，以便在偵測到問題時收到提醒。
- 與 Amazon DevOps Guru 整合：
  1. 利用 Amazon DevOps Guru 的機器學習功能，偵測現有資料的操作異常情況。
  2. 導覽至 DevOps Guru 中的通知設定，以設定異常提醒。
實作可執行的提醒：設計提醒，為立即採取行動提供足夠資訊。
1. 使用 Amazon EventBridge 規則監控 AWS Health 事件，或以程式設計方式與 AWS Health API 整合，以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。
減少提醒疲勞：將非嚴重性提醒降至最低。當團隊對眾多微不足道的提醒感到不知所措時，他們可能會失去對重大問題的監督，從而降低提醒機制的整體有效性。
設定複合警示：使用 Amazon CloudWatch 複合警示來合併多個警示。
與提醒工具整合：整合諸如 Ops Genie 和 PagerDuty 等工具。
採用聊天應用程式中的 Amazon Q Developer：整合聊天應用程式中的 Amazon Q Developer，以便將警示轉送至 Amazon Chime、Microsoft Teams 和 Slack。
基於日誌的提醒：使用 CloudWatch 中的日誌指標篩選器，根據特定的日誌事件建立警示。
審查並反覆：定期重新檢視並調整提醒組態。

實作計劃的工作量：中

資源

相關的最佳實務：

相關文件：

相關影片：

相關範例：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

OPS08-BP03 分析工作負載追蹤

OPS08-BP05 建立儀表板