PERF05-BP05 使用自動化主動修復效能相關問題
使用關鍵績效指標 (KPI) 搭配監控和提醒系統,主動處理效能相關的問題。
常見的反模式:
-
您只讓操作人員有能力對工作負載進行操作變更。
-
您讓所有警示篩選到操作團隊,無須主動修復。
建立此最佳實務的優勢: 主動修復警示動作能夠讓支援人員專注在無法自動採取行動的項目上。有助操作人員處理所有警示,不會不堪負荷,而能專注在重要警示。
未建立此最佳實務時的曝險等級: 低
實作指引
使用警示觸發自動化動作,盡可能修復問題。如果無法自動回應,則將警示上報給能夠回應的人員。例如,您可能有可以預測關鍵績效指標 (KPI) 預期值,且會在超過特定閾值時發出警示的系統,或是在 KPI 超出預期值時可以自動停止或回復部署的工具。
實作可在工作負載執行時提供效能可見度的程序。建置監控儀表板並建立效能預期的基準規範,以確定工作負載是否以最佳狀態執行。
實作步驟
-
找出並了解可自動修復的效能問題。使用 AWS 監控解決方案 Amazon CloudWatch 或 AWS X-Ray 等解決方案,以協助您更完整了解問題的根本原因。
-
制定可用來自動修正問題的逐步修復計畫和程序。
-
設定觸發程式以自動起始修復程序。例如,您可以定義觸發程式,在執行個體達到特定 CPU 使用率閾值時自動重新啟動執行個體。
-
使用 AWS 服務和技術,自動化修復程序。例如, AWS Systems Manager Automation 提供安全且可擴展的方式,來自動化修復程序。
-
在生產前環境中測試自動修復程序。
-
測試後,在生產環境中實作修復程序,並持續監控以找出需要改善的領域。
資源
相關文件:
相關影片:
相關範例: