设计原则 - AWS Well-Architected Framework

设计原则

以下是在云中实现卓越运营的设计原则:

  • 执行运营即代码:在云中,您可以将用于应用程序代码的工程规范应用于整个环境。您可以将整个工作负载(应用程序、基础设施等)定义为代码,并使用该代码进行更新。您可以为运营流程编写脚本,并通过启动这些脚本来自动执行流程,以响应事件。通过执行运营即代码,您可以减少人为错误并实现对事件的一致响应。

  • 频繁进行小型、可回滚的变更:将工作负载设计为可扩展且松耦合,以允许定期更新组件。自动部署技术加上小型增量变更可缩小影响范围,并能够在发生故障时更快地进行回滚。这将增强您的信心,在保持质量和快速适应市场条件变化的同时,为您的工作负载提供有益的变化。

  • 经常完善操作程序:随着工作负载的演变,应相应地改进操作程序。在使用运营程序时,要寻找机会改进它们。定期审查并验证所有流程是否有效,以及团队是否熟悉这些流程。在发现差距时,相应地更新程序。向所有利益相关者和团队传达程序更新。将运营游戏化,以分享最佳实践并向团队传授知识。

  • 预测故障:执行“故障演练”,找出潜在的故障源,以便消除或减少故障。测试您的故障场景,并确认您了解相应影响。测试您的响应程序,以确保它们的有效性,以及团队熟练他们的流程。设置定期的实际演练,以测试工作负载和团队对模拟事件的响应。

  • 从所有运营故障中吸取经验教训:从所有运营事件和故障中吸取经验教训,推动改进。在多个团队乃至组织范围中分享经验教训。

  • 使用托管服务:尽可能使用 AWS 托管服务,减少运营负担。围绕与这些服务的交互制定操作程序。

  • 实施可观测性以获得切实可行的见解:全面了解工作负载行为、性能、可靠性、成本和运行状况。建立关键绩效指标(KPI),利用可观测性遥测来作出明智的决策,并在业务结果面临风险时迅速采取行动。基于可操作的可观测性数据,主动提高性能和可靠性,降低成本。