OPS10-BP01 使用程序進行事件、事故和問題管理 - 卓越營運支柱

OPS10-BP01 使用程序進行事件、事故和問題管理

您的組織具有處理事件、事故和問題的程序。事件 是發生於工作負載、但可能無需由您介入的事項。事故 是需要介入的事件。 問題 是重複發生而需要介入或無法解決的事件。您需要相關程序來減輕這些事件對業務的影響,並確保您能夠適當因應。

當工作負載發生事故和問題時,您需要有相關程序來加以處理。您如何讓利害關係人得知事件的狀態? 應變由誰監控? 您使用哪些工具來減輕事件的影響? 在此舉例說明一些您為了獲得可靠的應變程序而有待解答的問題。

程序必須集中記載,並且提供給涉及工作負載的每個人使用。如果您沒有集中的 Wiki 或文件存放區,可以使用版本控制儲存庫。您將隨著程序的演進而保有最新計劃。

問題是可以自動化的。這些事件佔據的時間會影響到您的創新能力。請開始建置可重複的程序,以減輕問題。經過一段時間後,您將著重於緩解措施的自動化或修正基礎問題。如此您即有時間投入於工作負載的改進。

預期成果: 您的組織具有處理事件、事故和問題的程序。這些程序會集中記載並存放。這些文件會隨著程序的變更而更新。

常見的反模式:

  • 週末發生了事故,而值班工程師不知該如何處理。

  • 客戶傳送電子郵件給您,指出應用程式已關閉。您將伺服器重新開機,試著修正問題。此狀況頻繁地發生。

  • 有一項事故讓多個團隊各自獨立試著加以解決。

  • 您的工作負載中發生了部署,但並未記錄。

建立此最佳實務的優勢:

  • 您的工作負載中有事件的稽核軌跡。

  • 您的事故中復原的時間減少了。

  • 團隊成員可用一致的方式解決事故和問題。

  • 調查事故的人力會更加整合。

未建立此最佳實務時的曝險等級:

實作指引

實作此最佳實務,意味著您會追蹤工作負載事件。您具有處理事故和問題的程序。這些程序會經常記載、共用及更新。問題經識別後會定出優先順序,然後獲得修正。

客戶範例

AnyCompany Retail 有某部分的內部 Wiki 專門用來處理事件、事故和問題管理。所有事件都會傳送至 Amazon EventBridge。問題會在 AWS Systems Manager OpsCenter 中識別為 OpsItems,並定出修正的優先順序,以減少無特殊專長人力。程序變更後,會隨即在其內部 Wiki 中更新。他們使用 AWS Systems Manager Incident Manager 來管理事故及協調緩解工作。

實作步驟

  1. 事件

    • 追蹤發生在工作負載中的事件,即使無需人為介入亦然。

    • 與工作負載利害關係人共同擬定應追蹤的事件清單。範例包括已完成的部署或成功的修補。

    • 您可以使用諸如 Amazon EventBridge 或者 Amazon Simple Notification Service 等服務來產生要追蹤的自訂事件。

  2. 事故

    • 首先請定義事故的溝通計劃。哪些利害關係人必須獲得通知? 您如何維繫其參與度? 協調工作由誰監控? 我們建議建立內部交談管道,以利溝通和協調。

    • 為支援工作負載的團隊定義呈報路徑,尤其是團隊未設置當班輪值時。根據您的支援等級,您也可以向 AWS Support 申請立案。

    • 建立用來調查事件的程序手冊。其中應包含溝通計劃和詳細的調查步驟。在您的調查中納入對 AWS Health Dashboard 的檢查。

    • 記載您的事故應變計劃。傳達事故管理計劃,讓內部與外部客戶都了解互動的規則及其應有的預期。對您的團隊成員進行其使用訓練。

    • 客戶可使用 Incident Manager 來設定及管理其事故應變計劃。

    • Enterprise Support 客戶可以要求 事件管理研討會 (透過其技術客戶經理)。這個指導研討會將測試您現有的事故應變計劃,並協助您識別改善的領域。

  3. 問題

    • 問題必須在 ITSM 系統中受到識別及追蹤。

    • 識別所有已知問題,並按照修正的工作量以及對工作負載的影響定出優先順序。

      
                用來排定問題優先順序的動作優先順序矩陣
    • 先解決高影響、低工作量的問題。這些問題解決後,再接著解決位於低影響、低工作量象限的問題。

    • 您可以使用 Systems Manager OpsCenter 來識別這些問題、將執行手冊連結至問題,並加以追蹤。

實作計劃的工作量: 中。必須同時具備程序和工具,才能實作此最佳實務。記載您的程序,並且讓工作負載的任何相關人員都可加以使用。經常加以更新。您具有管理問題和加以緩解或修正的程序。

資源

相關的最佳實務:

相關文件:

相關影片:

相關範例:

相關服務: