停機時間成本和混沌工程的出現 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

停機時間成本和混沌工程的出現

資訊技術情報諮詢 (ITIC) 估計,90% 的企業面臨每小時停機時間超過 300,000 USD 的成本,其中 41% 超過每小時 1 到 500 萬美元。除了立即損失收入之外,停機時間還可能導致長期問題,包括合規失敗、降低股票價格、大幅緩解成本,甚至是品牌受損。

雖然停機時間通常與產生收入的線上系統相關聯,但負面影響遠遠超出此範圍。所有大型企業和組織,無論其主要收入模式為何,都非常依賴其內部系統的可用性,例如人力資源和薪資。

影響這些核心內部服務的停機時間可能會抑制公司運作的能力,導致嚴重的營運中斷和財務影響。產生的問題可能包括下列項目:

  • 支付員工和廠商費用的延遲

  • 無法處理客戶訂單或交易

  • 洩露安全系統允許的敏感資料洩露

  • 生產力和營收機會的損失

  • 不合規的法規處罰

  • 損害品牌評價

混沌工程刻意引入受控制的中斷。使用混沌工程來了解或驗證系統對損害的回應,已成為改善系統彈性的關鍵實務。混沌工程可讓您的組織主動發現問題、驗證彈性機制,最終降低意外停機時間及其相關成本的風險。混沌工程的優點包括:

  • 暴露技術債務

  • 運動操作性肌肉

  • 建立對系統的信心

  • 識別故障點

  • 改善監控和可觀測性

  • 支援以實驗為基礎的學習

  • 提供改善的彈性,以減少停機時間

隨著系統變得越來越複雜且客戶期望增加,混沌工程變得越來越重要。Gartner 建議將混沌工程作為組織減少意外停機時間並改善彈性的關鍵實務。

混沌工程的採用挑戰

雖然混沌工程是改善系統彈性越來越重要的實務,但採用混沌工程可能會面臨下列障礙:

  • 有關風險的誤解 ‒ 常見的誤解是,混亂工程僅在生產環境中進行,這會導致對過度風險的擔憂。這種感知源於對混沌工程實務的系統性和控制性質缺乏理解。如 AWS Well-Architected Framework 中所述,請先在非生產環境中執行錯誤模擬。

  • 更長期的商業價值 ‒ 混沌工程的好處會逐漸累積,因此難以量化商業價值並證明初始投資的合理性。較慢的 ROI 讓組織難以排定優先順序並堅持混沌工程。

  • 技能和專業知識差距 ‒ 混沌工程需要一組獨特的技能和專業知識,這些技能和專業知識可能在您的組織中不易取得。建置或取得此專業知識可能是一個重大的障礙,尤其是對剛接觸實務和資源有限的組織而言。

此策略文件的其餘部分將主要著重於第二個挑戰,也就是展現混沌工程的商業價值。

混沌工程的累積效果

與具有明確定義開始和結束日期的傳統技術專案不同,混沌工程是持續學習和持續改善系統彈性的實務。隨著時間的推移,混沌工程複合的優勢。

隨著系統不斷發展和成長,新的故障模式也會出現。需要更多混沌實驗來識別潛在問題。修正問題可能需要數月的時間,特別是在系統和程序複雜的大型企業中,或當錯誤由外部服務供應商所擁有時。

將失敗作為學習和改進機會的文化轉移會隨著時間的推移而增長,並在組織中變得深厚。在自動化混沌工程實驗和開發支援工具方面的投資,會繼續簡化和增強混沌工程實務。建立這種機構知識並了解系統彈性是隨著時間累積的逐步程序。隨著實務隨著不斷發展的系統而成熟,透過混沌工程開發的知識、程序和工具會提高價值。

下圖顯示當混沌採用進行下列階段時,值如何隨時間增加:

  • 初始採用

  • 學習

  • 失敗模式分析

  • 一次性實驗

  • 定期 GameDays

  • 持續實驗

值一開始會逐漸增加,並在一次性實驗後更快地增加。

如圖所示,混沌工程的優點通常會在將任何錯誤注入系統之前開始。規劃和設計混沌實驗本身的過程可提供立即價值。識別潛在的故障案例、單一故障點和系統中的不確定性區域會導致改善。

例如,寫下失敗案例並討論潛在的層疊效果,稱為失敗模式和效果分析 (FMEA) 的程序,有助於發現可能忽略的明顯弱點或差距。您的組織可以主動解決這些問題,即使在系統受到任何故意中斷之前也是如此。如需詳細資訊,請參閱彈性分析架構

此外,系統可觀測性和監控的更多關注,通常會伴隨混沌的工程計畫立即開始帶來好處。改善對系統行為和故障模式的可見性,有助於團隊進一步了解系統的正常操作條件。更高的可見性也有助於團隊了解操作條件在推送至限制時如何降低、調整和失敗。

與連續實驗模式相比,一次性實驗和定期 GameDay 模式都是更多手動方法。他們需要更親自動手和探索性的程序,讓工程師透過觀察和實驗主動塑造和精簡假設。

另一方面,連續實驗模式本質上是自動化的。此模式著重於以受控制且反覆的方式執行已核准和已驗證的假設。它透過專用混沌管道在開發過程中使用自動化和整合,以協助確保一致且可重複的實驗。