REL05-BP04 快速失效机制和限制队列 - 可靠性支柱

REL05-BP04 快速失效机制和限制队列

当服务无法成功响应请求时,可采用快速失效机制。这样可释放与请求关联的资源,并允许该服务在资源不足的情况下进行恢复。快速失效机制一种成熟的软件设计模式,可用于在云端构建高度可靠的工作负载。队列也是一种成熟的企业集成模式,其能够实现平稳的负载,并在能够容忍异步处理的情况下,使得客户端能够释放资源。如果某个服务在正常条件下能够成功响应,但在请求速率过高时失败,请使用队列来缓冲请求。不过,不要允许出现较长的队列积压,否则可能导致处理已被客户端放弃的过时请求。

期望的结果: 当系统遇到资源争用、超时、异常或灰色故障等情况,导致无法实现服务等级目标时,快速失效机制策略可以加快系统恢复速度。如果系统必须承受流量峰值并能够适应异步处理,就可以使用队列来缓冲对后端服务的请求,让客户端可以快速释放请求,从而提高可靠性。在将请求缓冲到队列中时,系统将实施队列管理策略,来避免出现无法克服的积压。

常见反模式:

  • 实施消息队列,但不配置死信队列(DLQ)或 DLQ 数量警报来检测系统出现故障的时间。

  • 不测量队列中消息的时限(关于延迟的度量),来了解队列使用者何时落后或者出错并导致重试。

  • 当业务不需要再存在时,处理积压的消息没有任何价值,但不从队列中清除这些消息。

  • 当后进先出(LIFO)队列可以更好地满足客户端需求时,配置先进先出(FIFO)队列,例如,在不需要严格排序并且处理积压内容会延误所有新的和注重时效性的请求时,先进先出队列会导致所有客户端出现违反服务等级协议的情况。

  • 向客户端公开内部队列,而不是公开那些管理工作摄入并将请求放入内部队列的 API。

  • 将过多的工作请求类型合并到一个队列中,这会导致在一个队列中分配对多种请求类型的资源需求,进而会加剧积压情况。

  • 在同一个队列中处理复杂请求和简单请求,但这些请求具有不同的监控、超时和资源分配需求。

  • 不验证输入,也不使用断言在软件中实施快速失效机制,这些机制可将异常上报到更高级别的组件来轻松处理错误。

  • 不从请求路由中移除出现故障的资源,尤其是在由于崩溃和重启、间歇性依赖项故障、容量减少或网络数据包丢失,导致同时出现成功和失败的灰色故障时。

建立此最佳实践的好处: 采用快速失效机制的系统更容易调试和修复,通常在将版本发布到生产环境之前,在编码和配置阶段就会暴露问题。采用有效排队策略的系统在面对流量高峰和间歇性系统故障的情况时,能够提供更出色的韧性和可靠性。

未建立这种最佳实践的情况下暴露的风险等级:

实施指导

快速失效机制策略能够通过编码形式构建到软件解决方案中,也能够在基础设施中配置。除了快速失效机制之外,还可通过队列这种简单而强大的架构技术,来解耦系统组件,实现平稳的负载。Amazon CloudWatch 提供监控故障和发出警报的功能。在确定系统出现故障时,可以调用缓解策略,包括从受损资源进行故障转移。当系统使用 Amazon SQS 和其他队列技术实施队列来实现平稳的负载时,须考虑如何管理队列积压以及消息使用故障。

实施步骤

  • 在软件中实施编程式断言或特定指标,并将其用于明确发出关于系统问题的警报。Amazon CloudWatch 有助于根据应用程序日志模式和 SDK 工具创建指标和警报。

  • 使用 CloudWatch 指标和警报从受损资源进行故障转移,这些受损资源会增加处理延迟或者在处理请求时反复失败。

  • 要使用异步处理,您可以设计 API 来接受请求,并使用 Amazon SQS 将请求附加到内部队列,然后向生成消息的客户端发送成功消息,这样客户端就可以释放资源,并继续处理其他工作,同时后端队列使用者可以处理请求。

  • 在每次从队列中删除消息时,通过将现在的时间戳与消息时间戳进行比较来生成 CloudWatch 指标,从而测量和监控队列处理延迟。

  • 如果故障导致无法成功处理消息,或者有大量的流量高峰无法按照服务等级协议的要求处理,则将较旧或过多的流量转到溢出队列。这样便可以优先处理新的工作,在有可用容量时再处理较早的工作。这种技术与 LIFO 处理有相似之处,使得可以对所有新工作进行正常的系统处理。

  • 使用死信或再驱动队列,将无法处理的消息从积压中移至另一个位置,供以后研究和解决

  • 您可以重试,或者在允许的情况下,通过将现在的时间戳与消息时间戳进行比较,丢弃与发出请求的客户端不再相关的消息,以此来删除旧消息。

资源

相关最佳实践:

相关文档:

相关示例:

相关视频:

相关工具: