本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
PERF05-BP05 使用自動化主動修復效能相關問題
使用關鍵績效指標 (KPIs) 結合監控和警示系統,主動解決與績效相關的問題。
常見的反模式:
-
您只讓操作人員有能力對工作負載進行操作變更。
-
您讓所有警示篩選到操作團隊,無須主動修復。
建立此最佳實務的優勢:主動修復警示動作能夠讓支援人員專注在無法自動採取行動的項目上。這有助於操作人員無須疲於處理所有警示,而僅專注於關鍵警示。
未建立此最佳實務時的曝險等級:低
實作指引
使用警示觸發自動化動作,盡可能修復問題。如果無法自動回應,則將警示上報給能夠回應的人員。例如,您可能有一個系統,可以預測預期的金鑰效能指標 (KPI) 值,並在違反特定閾值時發出警示,或者如果超出KPIs預期值,則工具可以自動停止或復原部署。
實作可在工作負載執行時提供效能可見度的程序。建置監控儀表板並建立效能預期的基準規範,以確定工作負載是否以最佳狀態執行。
實作步驟
-
識別修復工作流程:識別並了解可自動修復的效能問題。使用 AWS 監控解決方案,例如 Amazon CloudWatch 或 AWS X-Ray 來協助您進一步了解問題的根本原因。
-
定義自動化程序:建立 step-by-step可用於自動修正問題的修復程序。
-
設定啟動事件:將事件設定為自動啟動修復程序。例如,您可以定義觸發條件,在執行個體達到特定CPU使用率閾值時自動重新啟動執行個體。
-
自動化修復:使用 AWS 服務和技術來自動化修復程序。例如,AWS Systems Manager Automation 提供安全且可擴展的方式,來自動化修復程序。如果變更無法成功解決問題,則請務必使用自我修復邏輯來還原變更。
-
測試工作流程:在生產前環境中測試自動修復程序。
-
實作工作流程:在生產環境中實作自動修復。
-
制定說明手冊:制定並記錄說明手冊,其中概述了補救計畫的步驟,包括啟動事件、補救邏輯和採取的動作。確保培訓利益相關者,以協助他們有效地應對自動補救事件。
-
審查和完善:定期評估自動補救工作流程的有效性。如有必要,請調整啟動事件和補救邏輯。
資源
相關文件:
相關影片:
相關範例: