准备
要为卓越运营做好准备,您必须了解您的工作负载及其预期行为。然后,您需要能够针对它们进行设计,以提供对其状态的洞察并构建程序以提供支持。
将工作负载设计成能够提供必要的信息,以便您了解其所有组件的内部状态(例如指标、日志、事件和跟踪信息),为可观测性和调查问题提供支持。迭代开发必要的遥测技术,以监控工作负载的运行状况,确定结果何时面临风险并做出有效响应。在检测工作负载时,请捕获一组广泛的信息以启用情景感知(例如,状态变化、用户活动、特权访问和利用率计数器等的变更),因为您可以随时间变化筛选最有用的信息。
采用改进生产调整流程并支持重构、快速质量反馈和错误修复的方法。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题。
采用提供快速质量反馈,并且若更改没有达到目标成效,则支持快速恢复的方法。使用这些实践可以减轻因部署更改而产生的问题的影响。制定计划以防更改不成功,这样在必要时能够更快速的响应,并测试和验证所做的更改。了解环境中的计划活动,以便管理更改风险,避免影响计划活动。强调频繁、小规模、可逆更改,以限制更改范围。这样可以简化故障排除工作、加快修复速度,并支持回滚更改。此外,还意味着能够更频繁地从有价值的更改中获益。
评估工作负载、流程和程序以及工作人员的运营准备就绪情况,以了解与工作负载相关的运营风险。您应该使用一致的流程(包括手动或自动化检查清单)来了解何时可运营工作负载或进行更改。这也使您能够发现需要制定计划予以解决的任何问题。准备好记录日常活动的运行手册和指导问题解决流程的行动手册。了解收益和风险,以便做出明智的决策,从而使更改应用到生产环境。
AWS 使您能够将整个工作负载(应用程序、基础设施、策略、监管和运维)视为代码。这意味着,您可以将用于应用程序代码的工程规范应用于堆栈的每个元素,并在团队或组织之间共享,提高开发工作的效益。使用云中的运营即代码功能和安全测试功能开发工作负载、运营流程和故障演练。使用 AWS CloudFormation,您可以实现一致的模板化沙箱开发、测试和生产环境,提高运营管理水平。
以下问题主要针对卓越运营的准备阶段。
OPS 4:如何设计工作负载以便自己了解其状态? |
---|
将工作负载设计成能够提供所有组件(例如指标、日志和跟踪信息)的必要信息,以便您了解其内部状态。这让您能够在适当的时候提供有效的响应。 |
OPS 5:如何减少缺陷、简化修复和改进生产流程? |
---|
支持在生产时调整改进流程并支持重构、快速质量反馈和错误修复方法。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题。 |
OPS 6:您如何缓解部署风险? |
---|
采用提供快速质量反馈,并且若更改没有达到目标成效,则支持快速恢复的方法。使用这些实践可以减轻因部署更改而产生的问题的影响。 |
OPS 7:如何知道您已经准备好支持某种工作负载? |
---|
评估工作负载、流程及程序和工作人员的操作准备就绪情况,以便了解与工作负载相关的操作风险。 |
对代码化运营进行投资,以最大限度地提高运营人员的工作效率,最大限度地降低错误率,并实现自动响应。使用“故障演练”来预测故障,并根据需要创建程序。使用资源标签和 AWS Resource Groups,按照一致的标记策略应用元数据,以标识您的资源。标记您的资源,以便进行整理、成本核算、访问控制并有针对性地自动执行操作活动。利用云的弹性特点结合相应部署实践,来推动开发活动和系统的预部署,以加快部署速度。当您对用于评估工作负载的检查清单进行更改时,请计划要对不再符合条件的活动系统执行哪些操作。