REL11-BP01 監控工作負載的所有元件以偵測失敗 - AWS Well-Architected 架構

REL11-BP01 監控工作負載的所有元件以偵測失敗

持續監控工作負載的運作狀態,讓您和自動化系統在發生效能降低或失敗時能夠察覺。根據商業價值監控關鍵績效指標 (KPI)。

所有復原和修復機制首先都必須能夠快速偵測問題。應該先偵測技術故障,以便解決問題。不過,可用性取決於工作負載提供商業價值的能力,因此測量此需求的關鍵績效指標 (KPI) 必須成為偵測和修復策略的一部分。

常用的反模式:

  • 未設定任何警示,因此會在未發出通知的情況下發生停機。

  • 警示存在,但在此臨界值下無法提供足夠的回應時間。

  • 收集的指標經常不足以符合復原時間目標 (RTO)。

  • 只會主動監控面對客戶的工作負載層。

  • 只會收集技術指標,不收集業務功能指標。

  • 無測量工作負載的使用者體驗的指標。

建立此最佳實務的優勢: 在各層級內進行適當的監控,可讓您減少偵測時間,進而減少復原時間。

若未建立此最佳實務,暴露的風險等級為:

實作指引

  • 根據您的復原目標決定元件的收集間隔。

    • 您的監控間隔取決於復原必須多快完成。您的復原時間取決於所需的復原時間,因此您必須考量此時間和復原時間目標 (RTO),藉以決定收集頻率。

  • 設定元件的詳細監控。

  • 建立自訂指標來測量業務關鍵績效指標 (KPI)。工作負載會實作關鍵業務功能。這些功能應做為 KPI,以協助確定何時發生間接問題。

  • 以使用者 Canary 監控使用者的故障體驗。可執行和模擬客戶行為的綜合交易測試 (也稱為 Canary 測試,但請別與 Canary 部署混淆),是最重要的測試程序之一。針對來自不同遠端位置的工作負載端點持續執行這些測試。

  • 建立追蹤使用者體驗的自訂指標。如果您可以檢測客戶的體驗,則可以判斷消費者體驗何時變差。

  • 設定警示以偵測工作負載的任何部分何時未正常運作,並指示何時自動擴展資源。警示會在儀表板上以視覺化方式顯示、透過 Amazon SNS 或電子郵件傳送提醒,以及使用 Auto Scaling 向上或向下擴展工作負載的資源。

  • 建立儀表板以視覺化指標。儀表板可以讓您以視覺化方式查看趨勢、極端值和其他潛在問題的指標,或提供您可能想要調查之問題的指示。

資源

相關文件:

相關範例: