附录 B-定量和定性衡量标准 - AWS 规范性指导

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

附录 B-定量和定性衡量标准

本节概述了用于跟踪运营改进的定量指标和用于评估混沌工程实践中更广泛的组织结果的定性衡量标准。

量化衡量标准

以下定量衡量标准为跟踪关键指标提供了一个框架,这些指标可以证明通过混沌工程实践实现的直接事件和运营改进:

  • 事件

    • 事件频率 − 跟踪事件分类框架内的事件数量,并按一段时间内的严重程度(严重、重大、次要)对事件进行分类。有关事件分类框架的更多信息,请参阅附录 C

    • 停机时间和降级 − 衡量每种事件分类的停机时间或服务降级的总持续时间。

    • 事件响应指标 ― 要了解事件,请衡量每种事件分类的检测时间、识别时间、缓解时间、恢复时间、上报时间以及其他相关指标。

    • 影响客户的事件-跟踪影响客户的事件数量或在影响客户之前控制的事件的百分比。

    • 运行手册变更 ——跟踪通过混沌实验获得的见解所产生的运行手册更新或修订的数量。运行手册提供了有关执行特定操作或程序以从特定类型的事件中恢复的详细说明。

  • 费用

    • 基础设施成本-收集有关基础设施成本的数据,包括为提高弹性而采取的行动所需的云计算资源和冗余措施。

    • 客户影响-衡量与系统故障或停机相关的对客户体验、流失率和收入损失的影响。

    • 员工工作效率-跟踪工程和运营团队在事件响应、消防、撰写验后分析以及其他与系统故障相关的被动任务上花费的时间。

  • 持续的系统改进-计算直接基于混沌实验见解而实施的流程改进、架构变更或自动恢复机制的数量。

  • 合规性-跟踪成本,努力满足与运营弹性相关的监管要求或行业标准。

  • 采用-跟踪整个组织中混乱实践的采用率。

  • 客户满意度 − 衡量客户满意度指标的变化,以衡量提高的系统可靠性对业务的影响。

定性衡量标准

以下定性衡量标准提供了一个框架,用于跟踪通过混沌工程实践实现的更广泛的组织成果:

  • 员工的信心和准备

    • 定期调查小组,以衡量他们在处理现实世界事件方面的信心水平以及他们对待命轮换的准备情况。

    • 跟踪作为培训一部分参与混沌实验的待命工程师的百分比。

  • 文化转变

    • 通过调查、反馈会议或审计,评估韧性思维在多大程度上渗透到组织中。

    • 跟踪积极倡导和倡导混沌工程实践的团队数量。

  • 跨职能协作和知识共享

    • 跟踪与混沌工程学习相关的跨团队知识共享会议或研讨会的频率和出席情况。

    • 跟踪涉及多个团队或部门的联合混乱工程计划的数量。

  • 训练效果

    • 通过进行培训后的调查或评估,评估混沌工程培训计划的有效性。

    • 跟踪参与混沌工程培训计划并阅读验尸的工程师人数。

  • 吸引和留住人才

    • 评估混沌工程计划是否通过减少修复停电所花费的时间和精力来吸引和留住顶尖的工程人才。

  • 品牌声誉

    • 跟踪与组织对运营弹性的承诺相关的品牌认知度或声誉的任何变化。

  • 竞争优势

    • 跟踪系统可用性方面相对于业界同行的竞争优势。