本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
附錄 C ‒ 事件分類
在分類架構中追蹤事件至關重要,因為該架構提供對影響系統的故障類型和問題的整體檢視。如果您的組織只追蹤單一類別中的事件,例如基礎設施故障,您可能會錯過其他領域的洞見和改進機會。透過追蹤跨多個類別的事件,您可以更好地了解要執行的各種混沌實驗。此觀點有助於識別潛在的盲點,並支援工程範圍的擴展,這會導致更具彈性和容錯能力的系統。
建議的事件分類架構旨在協助根據事件的性質和潛在影響來分類事件。它使用高階分類,將事件分組為八個主要類別:
-
部署問題:
-
失敗的部署
-
回復失敗
-
部署期間的組態問題
-
-
軟體錯誤和迴歸:
-
功能錯誤
-
整合問題
-
效能問題
-
配額問題
-
彈性機制問題 (重試、逾時)
-
資料完整性問題
-
-
測試問題:
-
缺少測試
-
無效測試
-
Flaky 測試
-
-
基礎設施故障:
-
硬體故障 (伺服器、網路裝置、儲存)
-
擴展問題
-
相依性失敗 (第三方服務、APIs)
-
網路連線問題
-
-
操作問題:
-
人為錯誤 (設定錯誤、意外變更)
-
監控和提醒失敗
-
容量規劃問題
-
備份和還原失敗
-
-
安全事件:
-
未經授權的存取嘗試
-
資料外洩
-
拒絕服務 (DoS) 攻擊
-
-
第三方服務中斷:
-
雲端供應商中斷
-
DNS 失敗
-
外部 API 和服務中斷
-
-
環境因素:
-
自然災難 (地震、火災、洪水、停電)
-
與天氣相關的問題
-
這是非明確的範例分類架構,您可以量身打造以符合您的特定需求和組織。我們建議您隨著系統演進或新類型的事件出現,定期檢閱和更新分類架構。