REL12-BP06 定期進行演練日 - AWS Well-Architected 架構

REL12-BP06 定期進行演練日

使用演練日定期執行回應事件和失敗的程序,盡可能接近生產環境 (包括在生產環境中),並與實際參與失敗情境的人員共同演練。在演練日當天強制執行措施,以確保生產事件不會影響使用者。

演練日會模擬失敗或事件,以測試系統、程序和團隊的應變。目的是實際執行在異常事件發生時團隊將要執行的動作。如此可協助您了解何處有改善空間,並能協助發展組織處理活動的經驗。這些應該定期進行,以便您的團隊建立應對的肌肉記憶

在彈性設計就緒,並已在非生產環境中進行測試之後,演練日就是確保生產中的一切按照計畫運作。演練日,特別是第一個演練日,是一個「全員參與」活動,工程師和操作人員會被告知何時發生,以及會發生什麼情況。執行手冊已經到位。模擬事件會以規定的方式在生產系統中執行,包括可能發生的故障事件,並會評估影響。如果所有系統都如設計運作,偵測和自我修復將幾乎不會產生影響。不過,如果觀察到負面影響,測試會回復並視需要手動修復工作負載問題 (使用執行手冊)。由於演練日經常會在生產環境中進行,因此應採取所有預防措施,以確保不會對客戶的可用性造成影響。

常見的反模式:

  • 記載您的程序,但絕不練習程序。

  • 未在測試練習中納入業務決策者。

建立此最佳實務的優勢:定期進行演練日可確保所有員工在發生實際事件時遵守政策和程序,並驗證這些政策和程序是否適當。

未建立此最佳實務時的曝險等級:

實作指引

  • 安排演練日以定期練習您的執行手冊和程序手冊。演練日應納入生產事件發生時參與的每個人:企業擁有者、開發人員、營運人員和事件反應團隊。

    • 執行負載或效能測試,然後注入故障。

    • 尋找執行手冊上的異常情況,並尋找練習程序手冊的機會。

      • 如果您偏離了執行手冊,應優化執行手冊或更正該行為。如果您執行程序手冊,請識別應使用的執行手冊,或建立新的執行手冊。

資源

相關文件:

相關影片: