PERF05-BP05 使用自动化技术主动修复与性能相关的问题 - AWS Well-Architected 框架

PERF05-BP05 使用自动化技术主动修复与性能相关的问题

使用关键性能指标(KPI)并结合监控和警报系统,主动解决与性能相关的问题。

常见反模式:

  • 只允许运营人员对工作负载进行运营更改。

  • 通过设置筛选条件将所有没有主动修复行为的警报发送给运营团队。

建立此最佳实践的好处:主动修复警报行为使支持人员能够集中精力处理那些无法自动完成的工作。这样一来,操作人员只需集中精力处理关键警报,从而避免因处理所有警报而变得应接不暇。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

使用警报触发自动操作,以便在可能的情况下修复问题。如果无法实现自动响应,则将警报上报给能够响应的人员。例如,您的系统在关键性能指标(KPI)超出特定阈值时,能够预测预期 KPI 值并发出警报;或者您的工具在 KPI 超出预期值时,能够自动停止或回滚部署。

实施相应流程,让您在工作负载运行期间了解其性能。构建监控控制面板并确定预期性能基准,以确定工作负载的性能是否达到最佳。

实施步骤

  • 确定修复工作流程:识别并了解可以自动修复的性能问题。使用 Amazon CloudWatch 或 AWS X-Ray 等 AWS 监控解决方案,帮助您更好地了解问题的根本原因。

  • 定义自动化流程:创建可用于自动修复问题的分步修复流程。

  • 配置启动事件:将事件配置为自动启动修复流程。例如,您可以定义一个触发器,以便在实例达到特定 CPU 利用率阈值时自动重启实例。

  • 自动执行修复:使用 AWS 服务和技术自动执行修复流程。例如,AWS Systems Manager Automation 提供了一种安全且可扩展的方法来自动执行修复流程。如果更改未成功解决问题,请务必使用自我修复逻辑来还原更改。

  • 测试工作流程:在预生产环境中测试自动修复流程。

  • 实施工作流程:在生产环境中实施自动修复。

  • 制定行动手册:制定行动手册并记录相关内容,概述修复计划的步骤,包括启动事件、修复逻辑和采取的行动。确保对利益相关方进行培训,协助他们有效应对自动修复事件。

  • 审查和完善:定期评测自动修复工作流程的有效性。必要时调整启动事件和修复逻辑。

资源

相关文档:

相关视频:

相关示例: