OPS11-BP02 執行事故後分析 - AWS Well-Architected 架構

OPS11-BP02 執行事故後分析

審查影響客戶的事件,並識別造成問題的因素和預防性措施。使用此資訊來開發緩解措施,以限制或防止事件再次發生。制定可快速有效回應的程序。適當地傳達成因和為目標受眾量身打造的糾正措施。

常用的反模式:

  • 您管理應用程式伺服器。大約每 23 小時 55 分鐘,所有作用中工作階段都會終止。您已嘗試識別應用程式伺服器上發生了什麼問題。您懷疑這反而可能是網路問題,但無法與網路團隊合作,因為他們太忙而無法為您提供支援。您缺少可遵循的預先定義程序來取得支援與收集必要資訊,以判斷發生的情況。

  • 您的工作負載內發生資料遺失問題。這是第一次發生,原因尚不確定。您確定它並不重要,因為您可以重新建立資料。資料遺失以影響客戶的較高頻率開始發生。當您還原遺失的資料時,這也會為您帶來額外的操作負擔。

建立此最佳實務的優勢: 透過預先定義的程序來判斷造成事件的元件、條件、動作和事件,讓您能夠找出改進機會。

若未建立此最佳實務,暴露的風險等級為:

實作指引

  • 使用程序判斷成因:審查所有影響客戶的事故。建立程序來識別和記錄事件的成因,以便您可以制定緩解措施來限制或防止事件再次發生。另外,您還可以制定快速有效地做出回應的程序。根據目標受眾的不同以適當的方式告知根本原因。