PERF05-BP05 使用自动化技术主动修复与性能相关的问题
使用关键性能指标(KPI)并结合监控和警报系统,主动解决与性能相关的问题。
常见反模式:
-
您只允许运营人员对工作负载进行运营更改。
-
您通过设置筛选条件将所有没有主动修复行为的警报发送给运营团队。
建立此最佳实践的好处: 主动修复警报行为使支持人员能够集中精力处理那些无法自动完成的工作。这样一来,操作人员只需集中精力处理关键警报,从而避免因处理所有警报而变得应接不暇。
未建立这种最佳实践的情况下暴露的风险等级: 低
实施指导
使用警报触发自动操作,以便在可能的情况下修复问题。如果无法实现自动响应,则将警报上报给能够响应的人员。例如,您的系统在关键性能指标(KPI)超出特定阈值时,能够预测预期 KPI 值并发出警报;或者您的工具在 KPI 超出预期值时,能够自动停止或回滚部署。
实施相应流程,让您在工作负载运行期间了解其性能。构建监控控制面板并确定预期性能基准,以确定工作负载的性能是否达到最佳。
实施步骤
-
识别并了解可以自动修复的性能问题。使用 AWS 监控解决方案(例如 Amazon CloudWatch 或 AWS X-Ray)来更好地了解问题的根本原因。
-
创建可用于自动修复问题的分步修复计划和流程。
-
将触发器配置为自动启动修复过程。例如,您可以定义一个触发器,以便在实例达到特定 CPU 利用率阈值时自动重启实例。
-
使用 AWS 服务和技术实现修复过程自动化。例如, AWS Systems Manager Automation 提供了一种安全且可扩展的方法来自动执行修复过程。
-
在预生产环境中测试自动修复流程。
-
测试完成后,在生产环境中实施修复过程,并持续进行监控,以便及时发现哪些地方需要改进。
资源
相关文档:
相关视频:
相关示例: