OPS07-BP05 做出明智的决策来部署系统和变更 - AWS Well-Architected Framework

OPS07-BP05 做出明智的决策来部署系统和变更

为工作负载的成功和不成功变更制定恰当的流程。故障演练是一种演习,团队模拟发生故障的情况来制定缓解策略。使用故障演练来预测故障,并在适当的时候创建程序。评估将变更部署到工作负载所获得好处和产生的风险。确认所有变更符合监管要求。

期望结果:

  • 将变更部署到工作负载时作出明智的决策。

  • 变更符合监管要求。

常见反模式:

  • 将变更部署到工作负载,而没有处理失败部署的流程。

  • 对生产环境作出不符合监管要求的变更。

  • 部署新版本的工作负载,而不为资源利用建立基准。

建立此最佳实践的好处:

  • 为工作负载的不成功变更做好了准备。

  • 工作负载的变更符合监管策略。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

使用故障演练制定不成功变更的流程。记录不成功变更的流程。确保所有变更符合监管要求。评估将变更部署到工作负载所获得好处和产生的风险。

客户示例

AnyCompany Retail 定期执行故障演练以验证他们的不成功变更流程。他们在共享的 Wiki 中记录他们的流程并经常更新。所有变更符合监管要求。

实施步骤

  1. 将变更部署到工作负载时作出明智的决策。确立并审查成功部署的条件。制定将触发变更回滚的方案或条件。在部署变更带来的好处与不成功变更的风险之间进行权衡。

  2. 确认所有变更符合监管政策。

  3. 使用故障演练为不成功的变更制定计划,并记录缓解策略。运行桌面练习,为不成功的变更建模,并验证回滚程序。

实施计划的工作量级别:适中。实施故障演练的实践需要整个组织内的利益攸关方进行协调和付出努力。

资源

相关最佳实践:

相关文档: