OPS08-BP04 建立可付諸行動的警示

及時偵測並回應應用程式行為偏差的情況，是相當重要的一環。尤其重要的是，能夠辨識以關鍵績效指標 (KPI) 為基礎的成果何時存在風險，或何時出現非預期的異常狀況。以 KPI 做為警示的基礎，可確保您收到的訊號與業務或營運影響直接相關。這種可付諸行動的警示可推動主動回應，且有助於維持系統效能和可靠性。

預期成果： 接收及時、相關且可付諸行動的警示，以便迅速找出並緩解潛在問題，尤其是 KPI 成果存在風險時。

常見的反模式：

設定太多非嚴重警示，導致警示疲勞。
未根據 KPI 排定警示的優先順序，因此難以了解問題對業務造成的影響。
忽略解決根本原因，導致一再出現相同問題的警示。

建立此最佳實務的優勢：

專注於可付諸行動且相關的警示，以減少警示疲勞的情況。
透過主動偵測和緩解問題，改善系統運作時間和可靠性。
透過整合熱門的警示和通訊工具，強化團隊協作並加快問題解決速度。

未建立此最佳實務時的曝險等級： 高

實作指引

若要建立有效的警示機制，則務必使用指標、日誌和追蹤資料，因為這些資料會在 KPI 為基礎的成果存在風險或偵測到異常時發出訊號。

實作步驟

確定關鍵績效指標 (KPI)： 識別應用程式的 KPI。警示應與這些 KPI 密切相關，才能準確反映業務影響。
實作異常偵測：
- 使用 AWS Cost Anomaly Detection： 設定 AWS Cost Anomaly Detection 以自動偵測不尋常的模式，確保真正發生異常狀況時會產生警示。
- 使用 X-Ray Insights：
  1. 設定 X-Ray Insights 以偵測追蹤資料中的異常情況。
  2. 設定 X-Ray Insights 的通知，以便在偵測到問題時收到警示。
- 與 DevOps Guru 整合：
  1. 利用 Amazon DevOps Guru 的機器學習功能來偵測現有資料中的操作異常狀況。
  2. 瀏覽至通知設定 (DevOps Guru 中) 以設定異常警示。
實作可付諸行動的警示： 設計警示，以提供足夠資訊來立即採取行動。
減少警示疲勞： 盡量減少非嚴重警示。產生大量不重要的警示會使團隊疲於奔命，導致疏忽嚴重的問題，而降低警示機制的整體效用。
設定複合警報： 使用 Amazon CloudWatch 複合警報來合併多個警報。
整合警示工具： 合併各種工具，如 Ops Genie 和 PagerDuty。
參與 Amazon Q Developer in chat applications 整合 Amazon Q Developer in chat applications以將警示轉送至 Chime、Microsoft Teams 和 Slack。
以日誌為基礎的警示： 使用日誌指標篩選器 (CloudWatch 中)，以根據特定日誌事件建立警報。
檢閱和反覆執行： 定期重新檢視和改進警示組態。

實作計劃的工作量： 中。

資源

相關的最佳實務：

相關文件：

相關影片：

相關範例：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

OPS08-BP03 分析工作負載追蹤

OPS08-BP05 建立儀表板