OPS10-BP02 每個提醒建立一個程序 - 卓越運作支柱

OPS10-BP02 每個提醒建立一個程序

為系統中的每個提醒建立清晰明確的程序,對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應,從而改善操作的可靠性和回應能力。

預期成果:每個提醒都會啟動特定且明確定義的回應計畫。在可能的情況下,回應會自動化,具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫,以便任何操作員都能一致且有效地回應。回應迅速且全面一致,可提升營運效率和可靠性。

常見的反模式:

  • 提醒沒有預定義的回應流程,導致臨時和延遲的解決方案。

  • 提醒過載會導致重要提醒被忽略。

  • 由於缺乏明確的擁有權和責任,提醒的處理不一致。

建立此最佳實務的優勢:

  • 透過僅提高可操作的提醒來減少提醒疲勞。

  • 減少操作問題的平均解決時間 (MTTR)。

  • 減少平均調查時間 (MTTI),有助於降低 MTTR。

  • 增強擴展操作回應的能力。

  • 提高了處理操作事件中的一致性和可靠性。

未建立此最佳實務時的曝險等級:

實作指引

為每個提醒制定一個流程,包括:為每個提醒建立清晰的回應計畫;在可能的情況下自動化回應;並根據營運意見回饋和不斷發展的需求持續完善這些流程。

實作步驟

下圖說明 AWS Systems Manager Incident Manager 中的事件管理工作流程。它的設計目的是透過自動建立事件來回應 Amazon CloudWatchAmazon EventBridge 中的特定事件,迅速回應營運問題。自動或手動建立事件時,Incident Manager 會集中管理事件,組織相關的 AWS 資源資訊,並啟動預先定義的回應計畫。這包括執行 Systems Manager Automation 執行手冊以立即採取行動,以及在 OpsCenter 中建立父作業工作項目以追蹤相關任務和分析。此簡化的流程可加速並協調整個 AWS 環境中的事件回應。

描述 Incident Manager 如何工作的流程圖 - AWS Chatbot、呈報計畫和聯絡人,並且執行手冊會流入回應計畫,回應計畫會流入事件和分析。Amazon CloudWatch 也會流入回應計畫。

  1. 使用複合警示:在 CloudWatch 中建立複合警示,將相關警示分組,從而降低噪音並允許更有意義的回應。

  2. 整合 Amazon CloudWatch 警示與 Incident Manager 設定 CloudWatch 警示,以便在 AWS Systems Manager Incident Manager 中自動建立事件。

  3. 整合 Amazon EventBridge 與 Incident Manager:建立 EventBridge 規則以回應事件並使用定義的回應計畫建立事件。

  4. 為 Incident Manager 中的事件做好準備:

    • 在 Incident Manager 中針對每種提醒類型建立詳細的回應計畫

    • 透過與 Incident Manager 中的回應計畫相連的 AWS Chatbot 來建立聊天頻道,以便在 Slack、Microsoft Teams 和 Amazon Chime 等平台的事件期間進行即時通訊。

    • Systems Manager Automation 執行手冊納入 Incident Manager 中,以推動對事件的自動回應。

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例: