事件管理員中的事件生命週期 - Incident Manager

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

事件管理員中的事件生命週期

AWS Systems Manager Incident Manager提供基於最佳實踐的 step-by-step 框架,以識別事件並對其做出反應,例如服務中斷或安全威脅。事件管理員的主要重點是透過完整的事件生命週期管理解決方案,協助將受影響的服務或應用程式盡快恢復正常狀態。

事件管理員為事件生命週期的每個階段提供工具和最佳實務:

事件生命週期性的流程,從警示、參與、分類到調查,再到事件後分析,以及回到警示和參與。

警示和參與

事件生命週期的警示和參與階段著重於提高應用程式和服務中的事件意識。這個階段在偵測到事件之前就開始,需要深入瞭解您的應用程式。您可以使用 Amazon CloudWatch 指標監控應用程式效能的相關資料,或利用 Amazon 彙總 EventBridge來自不同來源、應用程式和服務的提醒。在您為應用程式設定監視之後,您可以開始對超出歷史規範的指標發出警示。若要深入瞭解監視最佳做法,請參閱監控

若要支援回應事件診斷,您可以啟用「事件管理員」中的「發現項目」功能。發現項目是在事件發生時發生的AWS CodeDeploy部署和AWS CloudFormation堆疊更新的相關資訊。擁有此資訊可減少評估潛在原因所需的時間,從而縮短事件復原 (MTTR) 的平均時間。

現在您正在監控應用程式中的事件,您可以定義事件回應計劃,以便在事件期間使用。若要進一步瞭解如何建立回應計劃,請參閱在事件管理員中使用回應計劃。Amazon EventBridge 事件或 CloudWatch 警報可以使用回應計劃做為範本,自動建立事件。若要深入瞭解事件建立,請參閱在事件管理員中建立事件

應變計劃推出相關的升級計劃參與計劃,以將急救人員引入事件中。有關如何設置升級計劃的更多內容,敬請參閱建立升級計劃。同時,使用聊天管道AWS Chatbot通知回應者,將他們導向事件詳細資料頁面。團隊可以使用聊天管道和事件詳細資料來溝通和分類事件。如需在事件管理員中設定聊天頻道的詳細資訊,請參閱任務 2:建立聊天頻道AWS Chatbot

分類

分類是當第一響應者試圖確定對客戶的影響。事件管理員主控台中的事件詳細資料檢視可為回應者提供時間表和指標,以協助他們評估事件。評估事件的影響也為事件的回應時間、解決方案和溝通奠定了基礎。回應者使用 1 (嚴重) 到 5 (無影響) 的影響等級,排定事件的優先順序。

您的組織可以根據您的選擇定義每個影響評級的確切範圍。下表提供通常如何定義每個影響等級的範例。

影響代碼 影響名稱 範例定義範圍
1 Critical

影響大多數客戶的完整應用程式故障。

2 High

影響客戶子集的完整應用程式失敗。

3 Medium

對客戶造成影響的部分應用程式失敗。

4 Low

對客戶影響有限的間歇性故障。

5 No Impact

客戶目前沒有受到影響,但需要採取緊急行動以避免影響。

調查和緩解

件詳細資料檢視可為您的團隊提供工作流程、時間表和指標。若要瞭解如何處理事件,請參閱事件詳情

Runbook 通常會提供調查步驟,並且可以自動提取資料或嘗試常用的解決方案。Runbook 還提供了清晰,可重複的步驟,您的團隊已經發現是有用的緩解事件。runbook 選項卡側重於當前 runbook 步驟,並顯示過去和 future 的步驟。

事件管理器與 Systems Manager 自動化集成以構建手冊。使用工作手冊執行下列任一項作業:

  • 管理執行個體和AWS資源

  • 自動執行指令碼

  • 管理AWS CloudFormation資源

如需有關支援動作類型的詳細資訊,請參閱《AWS Systems Manager使用者指南》中的 Systems Manager 自動化動作參考

時間軸」標籤會顯示已採取的動作。時間軸記錄每個時間戳記和自動創建的詳細信息。若要將自訂事件新增至時間表,請參時間表閱本使用手冊之「事件詳細資料」頁面中的章節。

診斷索引標籤會顯示自動填入的量度和手動新增的量度。此檢視可為您的應用程式在事件期間的活動提供有價值的資訊。

與」標籤可讓您在事件中新增其他聯絡人,並協助提供參與聯絡人的資源,以便在涉及事件後迅速上手。通過定義的升級計劃或個人參與計劃進行聯繫。

使用聊天管道,您可以直接與您的事件和團隊中的其他回應者互動。使用AWS Chatbot,您可以在中配置聊天頻道。 Slack、Microsoft Teams、和 Amazon Chime 聲。在Slack和Microsoft Teams頻道中,回應者可以使用許多ssm-incidents指令直接從聊天頻道與事件互動。如需詳細資訊,請參閱透過聊天頻道進行互動

事件後分析

事件管理器提供了一個框架,用於反思事件,採取必要的步驟,以防止事件在 future 再次發生,並改善整體事件響應活動。改進可能包括:

  • 事件涉及的應用程式的變更。您的團隊可以利用這段時間來改善系統並使其更具容錯能力。

  • 事件回應計劃的變更。花時間把學到的經驗教訓.

  • 工作手冊的變更。您的團隊可以深入探討解決方案所需的步驟,以及您可以自動執行的步驟。

  • 警示的變更。事件發生後,您的團隊可能已經注意到您可以用來提醒團隊有關事件的指標中的關鍵點。

事件管理器通過在事件時間表旁邊使用一組事件後分析問題和行動項目來促進這些潛在的改進。若要進一步瞭解透過分析改善,請參閱在事件管理員中執行事件後分析