REL11-BP01 監控工作負載的所有元件以偵測失敗
持續監控工作負載的運作狀態,讓您和自動化系統在發生效能降低或失敗時能夠察覺。根據商業價值監控關鍵績效指標 (KPI)。
所有復原和修復機制首先都必須能夠快速偵測問題。應該先偵測技術故障,以便解決問題。不過,可用性取決於工作負載提供商業價值的能力,因此測量此需求的關鍵績效指標 (KPI) 必須成為偵測和修復策略的一部分。
常用的反模式:
-
未設定任何警示,因此會在未發出通知的情況下發生停機。
-
警示存在,但在此臨界值下無法提供足夠的回應時間。
-
收集的指標經常不足以符合復原時間目標 (RTO)。
-
只會主動監控面對客戶的工作負載層。
-
只會收集技術指標,不收集業務功能指標。
-
無測量工作負載的使用者體驗的指標。
建立此最佳實務的優勢: 在各層級內進行適當的監控,可讓您減少偵測時間,進而減少復原時間。
若未建立此最佳實務,暴露的風險等級為: 高
實作指引
根據您的復原目標決定元件的收集間隔。
-
您的監控間隔取決於復原必須多快完成。您的復原時間取決於所需的復原時間,因此您必須考量此時間和復原時間目標 (RTO),藉以決定收集頻率。
-
設定元件的詳細監控。
-
判斷 EC2 執行個體和 Auto Scaling 是否需要詳細監控。詳細監控提供 1 分鐘的間隔指標,預設監控則提供 5 分鐘的間隔指標。
-
判斷 RDS 是否需要增強型監控。增強型監控使用 RDS 執行個體上的代理程式,以取得 RDS 執行個體上不同處理程序或執行緒的實用資訊。
-
建立自訂指標來測量業務關鍵績效指標 (KPI)。工作負載會實作關鍵業務功能。這些功能應做為 KPI,以協助確定何時發生間接問題。
以使用者 Canary 監控使用者的故障體驗。可執行和模擬客戶行為的綜合交易測試 (也稱為 Canary 測試,但請別與 Canary 部署混淆),是最重要的測試程序之一。針對來自不同遠端位置的工作負載端點持續執行這些測試。
建立追蹤使用者體驗的自訂指標。如果您可以檢測客戶的體驗,則可以判斷消費者體驗何時變差。
-
設定警示以偵測工作負載的任何部分何時未正常運作,並指示何時自動擴展資源。警示會在儀表板上以視覺化方式顯示、透過 Amazon SNS 或電子郵件傳送提醒,以及使用 Auto Scaling 向上或向下擴展工作負載的資源。
建立儀表板以視覺化指標。儀表板可以讓您以視覺化方式查看趨勢、極端值和其他潛在問題的指標,或提供您可能想要調查之問題的指示。
資源
相關文件:
相關範例: