本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
准备
要为卓越运营做好准备,您必须了解工作负载及其预期行为。然后,您需要能够针对它们进行设计,以提供对其状态的洞察并构建程序来支持这些工作负载。
将工作负载设计成能够提供必要的信息,以便您了解其所有组件的内部状态(例如指标、日志、事件和跟踪数据),为可观测性和调查问题提供支持。可观测性不仅仅是简单的监控,它让您可以根据系统的外部输出全面了解系统的内部运作。可观测性源于指标、日志和跟踪数据,可提供对系统行为和动态的深刻洞察。通过有效的可观测性,团队可以识别模式、异常和趋势,从而能够主动解决潜在问题并保持最佳系统运行状况。确定关键绩效指标 (KPIs) 对于确保监测活动与业务目标保持一致至关重要。这种一致性可确保团队使用真正重要的指标作出数据驱动型决策,从而优化系统性能和业务成果。此外,可观测性使企业能够积极采取行动,而不是被动作出反应。团队可以了解系统内部的 cause-and-effect关系,预测和预防问题,而不仅仅是对问题做出反应。随着工作负载的发展变化,必须重新审视和完善可观测性策略,确保其仍然适用且有效。
采用的方法需能够改进将更改应用于生产环境的流程,并且支持重构、快速质量反馈和错误修复。这些方法可以加快有益更改进入生产环境的速度、减少产生的问题,并能够快速识别和修复通过部署活动引入的问题或在环境中发现的问题。
采用的方法需能够提供快速质量反馈,并在更改没有达到预期结果时实现快速恢复。使用这些实践可以减轻因部署更改而产生的问题的影响。制定计划以防更改不成功,这样在必要时能够更快速地响应,并测试和验证所做的更改。了解环境中的计划活动,以便管理更改风险,避免影响计划活动。强调频繁、小规模、可逆更改,以限制更改范围。这样可以加快故障排除和修复速度,并支持回滚更改。此外,还意味着能够更频繁地从有价值的更改中获益。
评估工作负载、流程和程序以及工作人员的运营准备就绪情况,了解与工作负载相关的运营风险。使用一致的流程(包括手动或自动化检查清单)来了解何时可运营工作负载或进行更改。这也有助于您发现必须制定计划予以解决的任何问题。准备好记录日常活动的运行手册和指导问题解决流程的行动手册。了解益处与风险,以便作出明智的决策,从而将更改应用于生产环境。
AWS 允许您以代码的形式查看整个工作负载(应用程序、基础架构、策略、治理和运营)。这意味着,您可以将用于应用程序代码的工程规范应用于堆栈的每个元素,并在团队或组织之间共享,提高开发工作的效益。使用云中的运营即代码功能和安全试验功能来开发工作负载、运营程序并进行故障演练。使用 AWS CloudFormation 允许您拥有一致的、模板化的沙盒开发、测试和生产环境,同时提高操作控制水平。
投资实现运营活动即代码,以最大限度地提高运营人员的工作效率,最大限度地降低错误率,并实现自动响应。使用“故障演练”来预测故障,并在适当的时候创建程序。使用资源标签应用元数据并 AWS Resource Groups 遵循一致的标记策略,以实现对资源的识别。标记您的资源,以便进行整理、成本核算、访问控制并有针对性地自动执行运营活动。利用云的弹性特点结合相应部署实践,推动开发活动和系统的预部署,以加快实施速度。当您对用于评估工作负载的检查清单进行更改时,请计划要对不再符合条件的活动系统执行哪些操作。