附錄 B ‒ 量化和定性措施 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

附錄 B ‒ 量化和定性措施

本節概述量化指標,以追蹤營運改進和定性措施,以評估混沌工程實務中更廣泛的組織結果。

量化措施

下列量化措施提供追蹤關鍵指標的架構,可示範透過混沌工程實務實現的直接事件和操作改進:

  • 事件

    • 事件頻率 ‒ 追蹤事件分類架構中的事件數量,並根據其在一段時間內的重要性 (關鍵、主要、次要) 進行分類。如需事件分類架構的詳細資訊,請參閱附錄 C

    • 停機時間和降級 ‒ 測量每個事件分類的停機時間或服務降級總持續時間。

    • 事件回應指標 ‒ 若要了解事件、測量偵測時間、識別時間、緩解時間、復原時間、呈報時間,以及每個事件分類的其他相關指標。

    • 影響客戶的事件 ‒ 追蹤影響客戶的事件數量,或在影響客戶之前包含的事件百分比。

    • Runbook 變更 ‒ 追蹤從混沌實驗中獲得的洞見所產生的 Runbook 更新或修訂數量。Runbook 提供執行特定操作或程序以從特定類型的事件復原的詳細說明。

  • 成本

    • 基礎設施成本 ‒ 收集基礎設施成本的資料,包括雲端運算資源以及改善彈性所採取動作所需的備援措施。

    • 客戶影響 ‒ 測量與系統故障或停機時間相關的客戶體驗、流失率和收入損失的影響。

    • 員工生產力 ‒ 追蹤工程和營運團隊在事件回應、消防、撰寫事後事件和其他與系統故障相關的被動性任務所花費的時間。

  • 持續的系統改進 ‒ 計算因混沌實驗洞察而實作的程序改進、架構變更或自動化復原機制的數量。

  • 合規 ‒ 追蹤成本並努力滿足與營運彈性相關的法規要求或產業標準。

  • 採用 ‒ 追蹤整個組織的混沌實務採用率。

  • 客戶滿意度 ‒ 測量客戶滿意度指標的變更,以衡量改善的系統可靠性如何影響業務。

定性措施

以下定性措施提供一個架構,用於追蹤透過混沌工程實務實現的更廣泛的組織成果:

  • 員工信心和準備

    • 調查團隊會定期測量他們在處理真實世界事件時的可信度,以及他們對隨需輪換的感知準備程度。

    • 追蹤參與混沌實驗的待命工程師百分比,作為培訓的一部分。

  • 文化轉移

    • 評估彈性思維透過問卷、意見回饋工作階段或稽核滲透組織的程度。

    • 追蹤積極擁護和倡導混沌工程實務的團隊數量。

  • 跨功能協作和知識分享

    • 追蹤與混沌工程學習相關的跨團隊知識分享工作階段或研討會的頻率和出席率。

    • 追蹤涉及多個團隊或部門的關節混沌工程計畫數量。

  • 訓練有效性

    • 透過執行訓練後問卷或評估,評估混沌工程訓練計畫的有效性。

    • 追蹤參與混沌工程訓練計畫和閱讀事後文章的工程師人數。

  • 人才吸引和保留

    • 評估混沌工程計畫是否透過減少修復中斷所花費的時間和精力,來協助吸引和保留頂尖工程人才。

  • 品牌評價

    • 追蹤與組織對營運彈性所展現承諾相關的任何品牌感知或評價變化。

  • 競爭優勢

    • 在系統可用性方面追蹤相較於業界同儕的競爭優勢。