REL12-BP06 定期进行实际试用 - 可靠性支柱

REL12-BP06 定期进行实际试用

利用实际试用活动,在尽可能接近生产环境的环境中(包括在生产环境中),与将参与实际故障情景的人员一起为应对事件和故障而练习如何使用您的程序。实际试用会强制执行相关措施,以确保生产事件不会影响用户。

实际试用会模拟故障或事件,以便测试系统、流程和团队的响应。其目的是实际执行团队在发生意外事件时会执行的操作。这将帮助您了解可以从哪些方面作出改进,并有助于培养组织处理各种事件的经验。这些操作应该定期进行,让团队建立起关于响应方式的 肌肉记忆

在非生产环境中对您的弹性设计进行测试以后,可通过 Game Day 确保生产中的一切按照计划运行。Game Day,尤其如果是首次开展,是所有人员都应该参加的活动,工程师和运营团队都会得到关于开展时间以及活动内容的信息。运行手册准备就绪。以规定的方式在生产系统中执行模拟事件(包括可能出现的故障事件),并评估影响。如果所有系统如设计运行,检测和自我修复不会产生或只会产生非常轻微的影响。但如果观察到负面影响,测试将会回滚,并且(使用运行手册)修复问题,在必要时手动修复。由于实际试用经常在生产中进行,所以应采取全部预防措施,以确保不会对客户造成可用性影响。

常见反模式:

  • 记录您的程序,但不要执行。

  • 不要让业务决策者参与测试练习。

建立此最佳实践的好处: 定期执行实际试用可确保在发生实际事件时,所有员工都遵守策略和程序,并且能够验证这些策略和程序是否合适。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

  • 安排实际试用,以定期运用运行手册和行动手册。生产事件中涉及的所有人员均需参与实际试用:业务负责人、开发人员、运营人员和事件响应团队。

    • 运行负载或性能测试,然后运行故障注入。

    • 寻找运行手册中的异常,并利用这些异常机会练习使用行动手册。

      • 如果您违反运行手册,请完善运行手册或纠正相应行为。如果练习使用行动手册,请确定应使用的运行手册,或者创建一个新运行手册。

资源

相关文档:

相关视频: