REL04-BP03 持续工作
系统会在负载中存在剧烈快速更改时失败。例如,如果您的工作负载执行的一项运行状况检查监控着数千个服务器的运行状况,每次都应发送相同大小的有效负载(当前状态的完整快照)。无论是否有服务器或有多少服务器发生故障,运行状况检查系统都会持续工作,而不会有剧烈、快速的变动。
例如,如果运行状况检查系统正在监控 10 万台服务器,在通常较低的服务器故障率下,它的负载是正常的。但如果发生重大事件让一半的服务器运行状况不佳,则运行状况检查系统会因为尝试更新通知系统以及向其客户端传送状态而变得不堪重负。因此,运行状况检查系统每次都应发送当前状态的完整快照,10 万台服务器的运行状况状态(每个状态都用一位表示)仅占 12.5 KB 的有效负载。无论是没有服务器发生故障还是所有服务器都发生故障,运行状况检查系统都会持续工作,而大幅度骤变也不会威胁到系统的稳定性。这实际上就是 Amazon Route 53 处理对端点(例如 IP 地址)运行状况检查的方式,从而确定最终用户如何路由到这些端点。
在未建立这种最佳实践的情况下暴露的风险等级:低
实施指导
-
持续工作,这样系统就不会在负载发生骤变时出现故障。
实施松耦合的依赖关系。队列系统、流系统、工作流和负载均衡器等依赖关系是松耦合的。松耦合有助于隔离某个组件的行为与依赖于它的其他组件的行为,从而提升韧性和敏捷性。
-
Amazon Builders' Library:Reliability, constant work, and a good cup of coffee
-
-
以监控 10 万台服务器的运行状况检查系统为例,对工作负载进行设计,确保无论成功或失败次数如何,有效负载大小都保持不变。
-
-
资源
相关文档:
相关视频: