OPS03-BP04 沟通及时、清晰、可行 - AWS Well-Architected Framework

OPS03-BP04 沟通及时、清晰、可行

制定相应机制,用于将已知风险和计划内事件及时通知给团队成员。提供必要的相关信息、详细信息和时间(如果可能),为确定是否需要采取措施、需要采取什么措施以及及时采取措施提供支持。例如,提供软件漏洞通知可以加快修补过程;或者,提供计划内促销活动的通知可以实施变更冻结以避免发生服务中断的风险。可以将计划内事件记录在变更日历或维护时间表中,以便团队成员可以确定哪些活动待处理。

期望结果:

  • 通过沟通提供背景、细节和时间期望。

  • 团队成员清楚地知道何时以及如何采取行动回应沟通。

  • 利用变更日历提供预期变更的通知。

常见反模式:

  • 每周会出现几次误报警报。每次发生警报时,您都要关掉通知声音。

  • 系统会要求您对安全组进行更改,但未告诉你应何时进行修改。

  • 当系统纵向扩展时,您会在聊天中不断收到通知,但无需执行任何操作。您避开聊天频道,而错过了重要通知。

  • 在不通知运营团队的情况下对生产作出更改。变更会触发警报,并激活随时待命的团队。

建立此最佳实践的好处:

  • 您的组织可避免警报疲劳。

  • 团队成员可以在必要的背景和期望下行动。

  • 可以在变更时段进行变更,从而降低风险。

在未建立这种最佳实践的情况下暴露的风险等级:

实施指导

为实施这种最佳实践,您必须与整个组织的利益攸关方合作,商定沟通标准。向您的组织公布这些标准。识别并删除误报或始终打开的警报。使用变更日历,以便团队成员知道何时可以采取行动以及哪些活动待处理。确认附带必要背景的沟通可带来明确的行动。

客户示例

AnyCompany Retail 使用聊天作为其主要沟通媒介。警报和其他信息会填入特定渠道。当有人必须采取行动时,会清楚地说明预期的结果,并提供运行手册或行动手册供他们使用。他们使用变更日历来安排生产系统的重大变更。

实施步骤

  1. 分析警报是否为误报,或警报是否会持续触发。删除或更改这些警报,以便仅在需要人工干预时才触发这些警报。如果触发了警报,则提供运行手册或行动手册。

    1. 您可以使用 AWS Systems Manager 文档为警报编制行动手册和运行手册。

  2. 制定合理的机制,以清晰、可操作的方式提供风险或计划内事件的通知,而且要引起足够的注意,以做出适当的响应。使用电子邮件列表或聊天频道在计划事件之前发送通知。

    1. Amazon Q Developer in chat applications 可用于在组织的消息传送平台内发送警报和响应事件。

  3. 提供可访问的信息源,其中包含计划内事件。通知来自同一系统的计划内事件。

    1. AWS Systems Manager 变更日历可用于创建变更时段,指明何时会发生变更。因而在团队成员可以安全地进行变更时,为他们提供通知。

  4. 监控漏洞通知和补丁程序信息,以了解外部漏洞以及与工作负载组件相关的潜在风险。向团队成员发送通知,以便他们可以采取行动。

    1. 您可以订阅 AWS 安全公告,以便接收有关 AWS 上漏洞的通知。

资源

相关最佳实践:

相关文档:

相关示例:

相关服务: