選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

OPS10-BP02 每個提醒建立一個程序

焦點模式
OPS10-BP02 每個提醒建立一個程序 - 卓越運作支柱

為系統中的每個提醒建立清晰明確的程序,對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應,從而改善操作的可靠性和回應能力。

預期成果:每個提醒都會啟動特定且明確定義的回應計劃。在可能的情況下,回應會自動化,具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫,以便任何操作員都能一致且有效地回應。回應迅速且全面一致,可提升營運效率和可靠性。

常見的反模式:

  • 提醒沒有預定義的回應流程,導致臨時和延遲的解決方案。

  • 提醒過載會導致重要提醒被忽略。

  • 由於缺乏明確的擁有權和責任,提醒的處理不一致。

建立此最佳實務的優勢:

  • 透過僅提高可操作的提醒來減少提醒疲勞。

  • 減少操作問題的平均解決時間 (MTTR)。

  • 減少平均調查時間 (MTTI),有助於降低 MTTR。

  • 增強擴展操作回應的能力。

  • 提高了處理操作事件中的一致性和可靠性。

例如,您已有既定流程來處理重要帳戶的 AWS Health 事件,包括應用程式警示、營運問題及規劃的生命週期事件 (例如,在叢集自動更新之前更新 Amazon EKS 版本),而且您為團隊提供主動監控、溝通和回應這些事件的能力。這些動作有助於防止 AWS 端變更造成的服務中斷,或是在發生非預期的問題時更快緩解。

未建立此最佳實務時的曝險等級:

實作指引

為每個提醒制定一個流程,包括:為每個提醒建立清晰的回應計劃;在可能的情況下自動化回應;並根據營運意見回饋和不斷發展的需求持續完善這些流程。

實作步驟

下圖說明 AWS Systems Manager Incident Manager 中的事件管理工作流程。它的設計目的是透過自動建立事件來回應 Amazon CloudWatchAmazon EventBridge 中的特定事件,迅速回應營運問題。自動或手動建立事件時,Incident Manager 會集中管理事件,組織相關的 AWS 資源資訊,並啟動預先定義的回應計劃。這包括執行 Systems Manager Automation 執行手冊以立即採取行動,以及在 OpsCenter 中建立父作業工作項目以追蹤相關任務和分析。此簡化的流程可加速並協調整個 AWS 環境中的事件回應。

描述 Incident Manager 如何運作的流程圖 - 聊天應用程式中的 Amazon Q Developer、呈報計畫和聯絡人,並且執行手冊會流入回應計畫,回應計畫會流入事件和分析。Amazon CloudWatch 也會流入回應計劃。

  1. 使用複合警示:在 CloudWatch 中建立複合警示,將相關警示分組,從而降低噪音並允許更有意義的回應。

  2. 使用 Amazon EventBridge 規則監控 AWS Health 事件以程式設計方式監控或與 AWS Health API 整合,以便在您收到 AWS Health 事件時自動執行動作。這些動作可以是一般動作 (例如將所有規劃的生命週期事件訊息傳送至聊天介面) 或是特定動作 (例如在 IT 服務管理工具中啟動工作流程)。

  3. 整合 Amazon CloudWatch 警示與 Incident Manager 設定 CloudWatch 警示,以便在 AWS Systems Manager Incident Manager 中自動建立事件。

  4. 整合 Amazon EventBridge 與 Incident Manager:建立 EventBridge 規則以回應事件並使用定義的回應計劃建立事件。

  5. 為 Incident Manager 中的事件做好準備:

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例:

在本頁面

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。