REL12-BP01 使用行动手册调查故障 - AWS Well-Architected Framework

REL12-BP01 使用行动手册调查故障

通过在行动手册中记录调查流程,实现对并不十分了解的故障场景做出一致且及时的响应。行动手册是在确定哪些因素导致故障场景时要执行的预定义步骤。所有流程步骤的结果都将用于确定要采取的后续步骤,直到问题得到确定或上报。

行动手册是您必须要执行的主动计划,以便有效采取响应措施。当在生产中遇到行动手册未涉及的故障场景时,首先要解决问题(灭火)。然后回过头来思考您在解决问题时采取的措施,并将这些措施作为新条目添加到行动手册中。

请注意,行动手册可用于对特定事件做出响应,运行手册则用来达成特定的结果。通常,运行手册适用于例行活动,而行动手册则被用于对非例行事件做出响应。

常见反模式:

  • 计划在以下情况下部署工作负载:不清楚诊断问题或响应意外事件的流程。

  • 关于在对事件进行调查时从哪些系统收集日志和指标的计划外的决定。

  • 指标和事件保留的时间不够长,无法检索到数据。

建立此最佳实践的好处: 使用行动手册可确保始终如一地遵循程序。编写行动手册可以减少手动操作导致的错误。通过实现行动手册自动化,可以消除团队成员干预的需要,或者在他们开始干预时便向他们提供更多信息,从而缩短事件响应时间。

未建立此最佳实践暴露的风险等级:

实施指导

  • 使用行动手册来发现问题。管理手册是用于调查问题的书面程序。在行动手册中记录流程,实现对故障场景的一致而及时的响应。行动手册必须包含所需的信息和指导,让足够熟练的员工能够收集适用信息、确定故障的潜在来源、隔离故障,并确定成因(在意外事件发生后执行分析)。

资源

相关文档:

相关示例: