OPS10-BP02 每個提醒建立一個程序

為系統中的每個提醒建立清晰明確的程序，對於有效且高效的事件管理至關重要。此做法可確保每個提醒都能產生特定且可行的回應，從而改善操作的可靠性和回應能力。

預期成果：每個提醒都會啟動特定且明確定義的回應計劃。在可能的情況下，回應會自動化，具有明確的擁有權和定義的呈報路徑。提醒會連結至最新的知識庫，以便任何操作員都能一致且有效地回應。回應迅速且全面一致，可提升營運效率和可靠性。

常見的反模式：

提醒沒有預定義的回應流程，導致臨時和延遲的解決方案。
提醒過載會導致重要提醒被忽略。
由於缺乏明確的擁有權和責任，提醒的處理不一致。

建立此最佳實務的優勢：

透過僅提高可操作的提醒來減少提醒疲勞。
減少操作問題的平均解決時間 (MTTR)。
減少平均調查時間 (MTTI)，有助於降低 MTTR。
增強擴展操作回應的能力。
提高了處理操作事件中的一致性和可靠性。

例如，您已有既定流程來處理重要帳戶的 AWS Health 事件，包括應用程式警示、營運問題及規劃的生命週期事件 (例如，在叢集自動更新之前更新 Amazon EKS 版本)，而且您為團隊提供主動監控、溝通和回應這些事件的能力。這些動作有助於防止 AWS 端變更造成的服務中斷，或是在發生非預期的問題時更快緩解。

未建立此最佳實務時的曝險等級：高

實作指引

為每個提醒制定一個流程，包括：為每個提醒建立清晰的回應計劃；在可能的情況下自動化回應；並根據營運意見回饋和不斷發展的需求持續完善這些流程。

實作步驟

下圖說明 AWS Systems Manager Incident Manager 中的事件管理工作流程。它的設計目的是透過自動建立事件來回應 Amazon CloudWatch 或 Amazon EventBridge 中的特定事件，迅速回應營運問題。自動或手動建立事件時，Incident Manager 會集中管理事件，組織相關的 AWS 資源資訊，並啟動預先定義的回應計劃。這包括執行 Systems Manager Automation 執行手冊以立即採取行動，以及在 OpsCenter 中建立父作業工作項目以追蹤相關任務和分析。此簡化的流程可加速並協調整個 AWS 環境中的事件回應。

描述 Incident Manager 如何運作的流程圖 - 聊天應用程式中的 Amazon Q Developer、呈報計畫和聯絡人，並且執行手冊會流入回應計畫，回應計畫會流入事件和分析。Amazon CloudWatch 也會流入回應計劃。

使用複合警示：在 CloudWatch 中建立複合警示，將相關警示分組，從而降低噪音並允許更有意義的回應。
利用 AWS Health 隨時掌握新知：AWS Health 是 AWS 雲端資源運作狀態的權威資訊來源。使用 AWS Health 視覺化並接收有關任何目前服務事件和近期變更的通知 (例如規劃的生命週期事件)，如此您就能採取行動來緩解衝擊。
1. 透過 AWS 使用者通知建立符合用途的 AWS Health 事件通知，以利用電子郵件和聊天管道傳送，並透過 Amazon EventBridge 或 AWS Health API 以程式設計方式與您的監控和警示工具整合。
2. 透過 Amazon EventBridge 或 AWS Health API 整合變更管理或您可能已在使用的 ITSM 工具 (如 Jira 或 ServiceNow)，以規劃並追蹤需要採取行動的運作狀態事件進度。
3. 如果您使用 AWS Organizations，請啟用 AWS Health 的組織檢視，以彙總帳戶之間的 AWS Health 事件。
整合 Amazon CloudWatch 警示與 Incident Manager 設定 CloudWatch 警示，以便在 AWS Systems Manager Incident Manager 中自動建立事件。
整合 Amazon EventBridge 與 Incident Manager：建立 EventBridge 規則以回應事件並使用定義的回應計劃建立事件。
為 Incident Manager 中的事件做好準備：
- 在 Incident Manager 中針對每種提醒類型建立詳細的回應計劃。
- 透過與 Incident Manager 中回應計劃相連的聊天應用程式中的 Amazon Q Developer 來建立聊天頻道，以便在 Slack、Microsoft Teams 和 Amazon Chime 等平台的事件期間進行即時通訊。
- 將 Systems Manager Automation 執行手冊納入 Incident Manager 中，以推動對事件的自動回應。

資源

相關的最佳實務：

相關文件：

相關影片：

相關範例：

AWS 研討會 - AWS Systems Manager Incident Manager - 自動化對安全事件的事件回應

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

OPS10-BP01 使用程序進行事件、事故和問題管理

OPS10-BP03 根據業務影響排定操作事件的優先順序