本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
OPS10-BP02 每個提醒建立一個程序
為系統中的每個提醒建立清晰明確的程序,對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應,從而改善操作的可靠性和回應能力。
預期成果:每個提醒都會啟動特定且明確定義的回應計畫。在可能的情況下,回應會自動化,具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫,以便任何操作員都能一致且有效地回應。回應迅速且全面一致,可提升營運效率和可靠性。
常見的反模式:
-
提醒沒有預定義的回應流程,導致臨時和延遲的解決方案。
-
提醒過載會導致重要提醒被忽略。
-
由於缺乏明確的擁有權和責任,提醒的處理不一致。
建立此最佳實務的優勢:
-
透過僅提高可操作的提醒來減少提醒疲勞。
-
減少操作問題的平均解決時間 (MTTR)。
-
減少平均調查時間 (MTTI),有助於降低 MTTR。
-
增強擴展操作回應的能力。
-
提高了處理操作事件中的一致性和可靠性。
例如,您已有既定流程來處理重要帳戶的 AWS Health 事件,包括應用程式警示、營運問題及規劃的生命週期事件 (例如,在叢集自動更新之前更新 Amazon EKS 版本),而且您為團隊提供主動監控、溝通和回應這些事件的能力。這些動作有助於防止 AWS 端變更造成的服務中斷,或是在發生非預期的問題時更快緩解。
未建立此最佳實務時的曝險等級:高
實作指引
為每個提醒制定一個流程,包括:為每個提醒建立清晰的回應計畫;在可能的情況下自動化回應;並根據營運意見回饋和不斷發展的需求持續完善這些流程。
實作步驟
下圖說明 AWS Systems Manager Incident Manager
-
使用複合警示:在 CloudWatch 中建立複合警示,將相關警示分組,從而降低噪音並允許更有意義的回應。
-
使用 Amazon EventBridge 規則監控 AWS Health 事件:以程式設計方式監控或與 AWS Health API 整合,以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。
-
整合 Amazon CloudWatch 警示與 Incident Manager 設定 CloudWatch 警示,以便在 AWS Systems Manager Incident Manager 中自動建立事件。
-
整合 Amazon EventBridge 與 Incident Manager:建立 EventBridge 規則以回應事件並使用定義的回應計畫建立事件。
-
為 Incident Manager 中的事件做好準備:
-
在 Incident Manager 中針對每種提醒類型建立詳細的回應計畫。
-
透過與 Incident Manager 中的回應計畫相連的 AWS Chatbot 來建立聊天頻道,以便在 Slack、Microsoft Teams 和 Amazon Chime 等平台的事件期間進行即時通訊。
-
將 Systems Manager Automation 執行手冊納入 Incident Manager 中,以推動對事件的自動回應。
-
資源
相關的最佳實務:
相關文件:
相關影片:
相關範例: