设计原则 - AWS Well-Architected 框架

设计原则

以下是在云中实现卓越运营的设计原则:

  • 围绕业务成果组织团队:团队实现业务成果的能力来自领导力愿景、有效的运营和与业务协调的运营模式。领导层应致力于 CloudOps 转型并全身心地投入其中,采用合适的云运营模式,激励团队以非常高效的方式运营并实现业务成果。正确的运营模式会利用人员、流程和技术能力来扩大规模,优化工作效率,并通过敏捷性、响应能力和适应能力打造差异化优势。组织的长期愿景会转化为一系列目标,并且这些目标将传达给整个组织内云服务的利益相关方和使用者。各个层面的目标和运营 KPI 将保持一致。这种做法能够维持通过实施以下设计原则所获得的长期价值。

  • 实施可观测性以获得切实可行的洞察:全面了解工作负载行为、性能、可靠性、成本和运行状况。建立关键绩效指标(KPI),利用可观测性遥测来作出明智的决策,并在业务结果面临风险时迅速采取行动。基于可操作的可观测性数据,主动提高性能和可靠性,降低成本。

  • 尽可能安全地实现自动化:在云中,您可以将用于应用程序代码的工程规范应用于整个环境。您能够以代码形式定义整个工作负载及其运营(应用程序、基础设施、配置和程序),并对其进行更新。之后,您可以通过启动工作负载的运营来响应事件,从而实现运营的自动化。在云中,您可以通过配置防护机制(包括速率控制、错误阈值和审批)来实现自动化的安全。通过有效的自动化,您可以实现对事件的持续响应,限制人为错误并减少操作员的艰苦工作。

  • 频繁进行可逆的小规模更改:将工作负载设计为可扩展且松耦合,以允许定期更新组件。自动部署技术加上小型增量更改可缩小影响范围,并能够在发生故障时更快地进行回滚。这将增强您的信心,在保持质量和快速适应市场条件变化的同时,为工作负载提供有益的更改。

  • 经常优化运营程序:随着工作负载的发展变化,相应地改进运营。在使用运营程序时,要寻找机会改进它们。定期审查并验证所有程序是否有效,以及团队是否熟悉这些程序。在发现差距时,相应地更新程序。向所有利益相关方和团队传达程序更新。将运营游戏化,以分享最佳实践并向团队传授知识。

  • 预测故障:通过推动故障场景来了解工作负载的风险状况及其对业务成果的影响,从而最大限度地提高运营成功率。测试程序的有效性以及团队对这些模拟故障作出的反应。制定明智的决策,管理通过测试确定的开放风险。

  • 从所有运营事件和指标中吸取经验教训:从所有运营事件和故障中吸取经验教训,推动改进。在多个团队乃至组织范围中分享经验教训。经验教训应重点介绍有关运营如何促进取得业务成果的数据和轶事。

  • 使用托管服务:尽可能使用 AWS 托管服务,减少运营负担。围绕与这些服务的交互制定操作程序。