OPS10-BP02 每個提醒建立一個程序 - 卓越運作支柱

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

OPS10-BP02 每個提醒建立一個程序

為系統中的每個提醒建立清晰明確的程序,對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應,從而改善操作的可靠性和回應能力。

預期成果:每個提醒都會啟動特定且明確定義的回應計畫。在可能的情況下,回應會自動化,具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫,以便任何操作員都能一致且有效地回應。回應迅速且全面一致,可提升營運效率和可靠性。

常見的反模式:

  • 提醒沒有預定義的回應流程,導致臨時和延遲的解決方案。

  • 提醒過載會導致重要提醒被忽略。

  • 由於缺乏明確的擁有權和責任,提醒的處理不一致。

建立此最佳實務的優勢:

  • 透過僅提高可操作的提醒來減少提醒疲勞。

  • 減少操作問題的平均解決時間 (MTTR)。

  • 減少平均調查時間 (MTTI),有助於降低 MTTR。

  • 增強擴展操作回應的能力。

  • 提高了處理操作事件中的一致性和可靠性。

例如,您已有既定流程來處理重要帳戶的 AWS Health 事件,包括應用程式警示、營運問題及規劃的生命週期事件 (例如,在叢集自動更新之前更新 Amazon EKS 版本),而且您為團隊提供主動監控、溝通和回應這些事件的能力。這些動作有助於防止 AWS 端變更造成的服務中斷,或是在發生非預期的問題時更快緩解。

未建立此最佳實務時的曝險等級:

實作指引

為每個提醒制定一個流程,包括:為每個提醒建立清晰的回應計畫;在可能的情況下自動化回應;並根據營運意見回饋和不斷發展的需求持續完善這些流程。

實作步驟

下圖說明 AWS Systems Manager Incident Manager 中的事件管理工作流程。它的設計目的是透過自動建立事件來回應 Amazon CloudWatchAmazon EventBridge 中的特定事件,迅速回應營運問題。自動或手動建立事件時,Incident Manager 會集中管理事件,組織相關的 AWS 資源資訊,並啟動預先定義的回應計畫。這包括執行 Systems Manager Automation 執行手冊以立即採取行動,以及在 OpsCenter 中建立父作業工作項目以追蹤相關任務和分析。此簡化的流程可加速並協調整個 AWS 環境中的事件回應。

描述 Incident Manager 如何工作的流程圖 - AWS Chatbot、呈報計畫和聯絡人,並且執行手冊會流入回應計畫,回應計畫會流入事件和分析。Amazon CloudWatch 也會流入回應計畫。

  1. 使用複合警示:在 CloudWatch 中建立複合警示,將相關警示分組,從而降低噪音並允許更有意義的回應。

  2. 使用 Amazon EventBridge 規則監控 AWS Health 事件以程式設計方式監控或與 AWS Health API 整合,以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

  3. 整合 Amazon CloudWatch 警示與 Incident Manager 設定 CloudWatch 警示,以便在 AWS Systems Manager Incident Manager 中自動建立事件。

  4. 整合 Amazon EventBridge 與 Incident Manager:建立 EventBridge 規則以回應事件並使用定義的回應計畫建立事件。

  5. 為 Incident Manager 中的事件做好準備:

    • 在 Incident Manager 中針對每種提醒類型建立詳細的回應計畫

    • 透過與 Incident Manager 中的回應計畫相連的 AWS Chatbot 來建立聊天頻道,以便在 Slack、Microsoft Teams 和 Amazon Chime 等平台的事件期間進行即時通訊。

    • Systems Manager Automation 執行手冊納入 Incident Manager 中,以推動對事件的自動回應。

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: