PERF07-BP06 主動監控和警示 - AWS Well-Architected 架構

PERF07-BP06 主動監控和警示

使用關鍵績效指標 (KPI) 搭配監控和提醒系統,主動處理效能相關的問題。使用警示觸發自動化動作,盡可能修復問題。如果無法自動回應,則將警示上報給能夠回應的人員。例如,您可能有一個可以預測關鍵績效指標 (KPI) 預期值並在超過特定閾值時發出警示的系統,或者在 KPI 超出預期值時可以自動停止或回復部署的工具。

實作可在工作負載執行時提供效能可見度的程序。建置監控儀表板並建立效能預期的基準規範,以確定工作負載是否以最佳狀態執行。

常用的反模式:

  • 您只讓操作人員有能力對工作負載進行操作變更。

  • 您讓所有警示篩選到操作團隊,無須主動修復。

建立此最佳實務的優勢: 主動修復警示動作能夠讓支援人員專注在無法自動採取行動的項目上。如此可確保操作人員不會負荷所有警報,而僅專注於關鍵警報。

若未建立此最佳實務,暴露的風險等級:

實作指引

在營運過程中監控效能:實作可在工作負載執行時提供效能可見度的程序。建立監控儀表板,並建立效能期望的基準。

資源

相關文件:

相關影片:

相關範例: