本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
停機時間成本和混沌工程的出現
資訊技術情報諮詢 (ITIC)
雖然停機時間通常與產生收入的線上系統相關聯,但負面影響遠遠超出此範圍。所有大型企業和組織,無論其主要收入模式為何,都非常依賴其內部系統的可用性,例如人力資源和薪資。
影響這些核心內部服務的停機時間可能會抑制公司運作的能力,導致嚴重的營運中斷和財務影響。產生的問題可能包括下列項目:
-
支付員工和廠商費用的延遲
-
無法處理客戶訂單或交易
-
洩露安全系統允許的敏感資料洩露
-
生產力和營收機會的損失
-
不合規的法規處罰
-
損害品牌評價
混沌工程刻意引入受控制的中斷。使用混沌工程來了解或驗證系統對損害的回應,已成為改善系統彈性的關鍵實務。混沌工程可讓您的組織主動發現問題、驗證彈性機制,最終降低意外停機時間及其相關成本的風險。混沌工程的優點包括:
-
暴露技術債務
-
運動操作性肌肉
-
建立對系統的信心
-
識別故障點
-
改善監控和可觀測性
-
支援以實驗為基礎的學習
-
提供改善的彈性,以減少停機時間
隨著系統變得越來越複雜且客戶期望增加,混沌工程變得越來越重要。Gartner 建議將混沌工程
混沌工程的採用挑戰
雖然混沌工程是改善系統彈性越來越重要的實務,但採用混沌工程可能會面臨下列障礙:
-
有關風險的誤解 ‒ 常見的誤解是,混亂工程僅在生產環境中進行,這會導致對過度風險的擔憂。這種感知源於對混沌工程實務的系統性和控制性質缺乏理解。如 AWS Well-Architected Framework 中所述,請先在非生產環境中執行錯誤模擬。
-
更長期的商業價值 ‒ 混沌工程的好處會逐漸累積,因此難以量化商業價值並證明初始投資的合理性。較慢的 ROI 讓組織難以排定優先順序並堅持混沌工程。
-
技能和專業知識差距 ‒ 混沌工程需要一組獨特的技能和專業知識,這些技能和專業知識可能在您的組織中不易取得。建置或取得此專業知識可能是一個重大的障礙,尤其是對剛接觸實務和資源有限的組織而言。
此策略文件的其餘部分將主要著重於第二個挑戰,也就是展現混沌工程的商業價值。
混沌工程的累積效果
與具有明確定義開始和結束日期的傳統技術專案不同,混沌工程是持續學習和持續改善系統彈性的實務。隨著時間的推移,混沌工程複合的優勢。
隨著系統不斷發展和成長,新的故障模式也會出現。需要更多混沌實驗來識別潛在問題。修正問題可能需要數月的時間,特別是在系統和程序複雜的大型企業中,或當錯誤由外部服務供應商所擁有時。
將失敗作為學習和改進機會的文化轉移會隨著時間的推移而增長,並在組織中變得深厚。在自動化混沌工程實驗和開發支援工具方面的投資,會繼續簡化和增強混沌工程實務。建立這種機構知識並了解系統彈性是隨著時間累積的逐步程序。隨著實務隨著不斷發展的系統而成熟,透過混沌工程開發的知識、程序和工具會提高價值。
下圖顯示當混沌採用進行下列階段時,值如何隨時間增加:
-
初始採用
-
學習
-
失敗模式分析
-
一次性實驗
-
定期 GameDays
-
持續實驗

如圖所示,混沌工程的優點通常會在將任何錯誤注入系統之前開始。規劃和設計混沌實驗本身的過程可提供立即價值。識別潛在的故障案例、單一故障點和系統中的不確定性區域會導致改善。
例如,寫下失敗案例並討論潛在的層疊效果,稱為失敗模式和效果分析 (FMEA) 的程序,有助於發現可能忽略的明顯弱點或差距。您的組織可以主動解決這些問題,即使在系統受到任何故意中斷之前也是如此。如需詳細資訊,請參閱彈性分析架構。
此外,系統可觀測性和監控的更多關注,通常會伴隨混沌的工程計畫立即開始帶來好處。改善對系統行為和故障模式的可見性,有助於團隊進一步了解系統的正常操作條件。更高的可見性也有助於團隊了解操作條件在推送至限制時如何降低、調整和失敗。
與連續實驗模式相比,一次性實驗和定期 GameDay 模式都是更多手動方法。他們需要更親自動手和探索性的程序,讓工程師透過觀察和實驗主動塑造和精簡假設。
另一方面,連續實驗模式本質上是自動化的。此模式著重於以受控制且反覆的方式執行已核准和已驗證的假設。它透過專用混沌管道