REL12-BP01 使用行动手册调查故障 - AWS Well-Architected 框架

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

REL12-BP01 使用行动手册调查故障

通过在行动手册中记录调查流程,对并不十分了解的故障场景实现一致且及时的响应。行动手册是在确定哪些因素导致故障场景时要执行的预定义步骤。所有流程步骤的结果都将用于确定要采取的后续步骤,直到问题得到确定或上报。

行动手册是您必须要执行的主动计划,以便有效采取被动措施。当在生产中遇到行动手册未涉及的故障场景时,首先要解决问题(灭火)。然后回过头来思考您在解决问题时采取的措施,并将这些措施作为新条目添加到行动手册中。

请注意,行动手册可用于对特定事件做出响应,运行手册则用来达成特定的结果。通常,运行手册适用于例行活动,而行动手册则用于对非例行事件做出响应。

常见反模式:

  • 计划在以下情况下部署工作负载:不清楚诊断问题或响应事件的流程。

  • 关于在对事件进行调查时从哪些系统收集日志和指标的计划外的决定。

  • 指标和事件保留的时间不够长,无法检索到数据。

建立此最佳实践的好处:使用行动手册可确保始终如一地遵循流程。编写行动手册可以减少手动操作导致的错误。通过实现行动手册自动化,可以消除团队成员干预的需要,或者在他们开始干预时便向他们提供更多信息,从而缩短事件响应时间。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

资源

相关文档:

相关示例: