REL10-BP03 采用隔板架构来限制影响范围
实施隔板架构(也称为基于单元的架构),将工作负载中故障的影响限制于有限数量的组件。
期望结果:基于单元的架构使用多个独立的工作负载实例,其中每个实例称为单元。单元彼此独立,不与其他单元共享状态,并且处理整个工作负载请求的子集。这样减少了故障(例如,错误的软件更新)对单个单元及其正在处理的请求的潜在影响。如果某个工作负载使用 10 个单元来服务 100 个请求,则在发生故障时,总请求中有 90% 不会受故障的影响。
常见反模式:
-
让单元无限制地发展。
-
同时将代码更新或部署到所有单元。
-
在不同单元之间共享状态或组件(路由器层除外)。
-
向路由器层添加复杂的业务或路由逻辑。
-
没有尽量减少跨单元交互。
建立此最佳实践的好处:借助基于单元的架构,许多常见类型的故障控制在单元本身,从而实现了额外的故障隔离。若出现难以控制的故障类型(例如不成功的代码部署,或者是受损或调用特定故障模式的请求,也称为毒丸请求),这些故障边界可以提供韧性。
在未建立这种最佳实践的情况下暴露的风险等级:高
实施指导
在船舶上,隔板确保船体裂口控制在船体的一个区段内。在复杂的系统中,通常会复制此模式以实现故障隔离。故障隔离边界可将一个工作负载内的故障影响限制于有限数量的组件。边界之外的组件不受故障影响。通过使用多个故障隔离边界,您可以限制对工作负载的影响。在 AWS 中,客户可以使用多个可用区和区域来实现故障隔离,但故障隔离的概念也可以扩展到工作负载的架构。
整个工作负载是分区的单元,按分区键进行划分。这个键需要与服务的粒度,或者与使用最少的跨单元交互来细分服务工作负载的自然方式保持一致。分区键的示例包括客户 ID、资源 ID 或可以在大多数 API 调用中轻松访问的任何其他参数。单元路由层根据分区键将请求分发到单个单元,并向客户端提供单个端点。
![图中显示了基于单元的架构](images/cell-based-architecture.png)
图 11:基于单元的架构
实施步骤
在设计基于单元的架构时,需要考虑几个设计注意事项:
-
分区键:选择分区键时应考虑一些特别事项。
-
分区键应与服务的粒度,或者与使用最少的跨单元交互来细分服务工作负载的自然方式保持一致。示例包括
customer ID
或resource ID
。 -
在所有请求中都必须提供分区键,要么直接提供,要么通过很容易由其他参数确定地推断出来的方式提供。
-
-
持久单元映射:上游服务在其资源的生命周期内应只与单个单元交互。
-
根据工作负载,可能需要使用单元迁移策略将数据从一个单元迁移到另一个单元。可能需要进行单元迁移的一种情况是:工作负载中的一个特定用户或资源变得太大,要求它具有专用的单元。
-
单元之间不应该共享状态或组件。
-
因此,应该避免或尽量减少跨单元交互,因为这些交互会在单元之间产生依赖关系,从而削弱故障隔离的改进。
-
-
路由器层:路由层是单元之间的共享组件,因此无法遵循与单元相同的分隔策略。
-
建议路由器层使用分区映射算法以一种计算效率高的方式将请求分发到各个单元,例如结合加密哈希函数和模块化算法,将分区键映射到单元。
-
为避免产生多单元影响,路由层必须尽可能保持简单和可横向扩展,这就需要在此层中避免出现复杂的业务逻辑。这还有一个额外的好处,即始终可以轻松地理解其预期行为,从而实现彻底的可测试性。正如 Colm MacCárthaigh 在《Reliability, constant work, and a good cup of coffee
》一文中所说,简单的设计和持续工作模式可产生可靠的系统并降低抗脆弱性。
-
-
单元大小:单元大小应具有上限,不得发展到超过这个值。
-
应通过执行彻底的测试来确定大小上限,直至达到临界点并建立安全的运营边际。有关如何实施测试实践的更多详细信息,请参阅 REL07-BP04 对工作负载进行负载测试
-
总体工作负载增长时应增加额外的单元,使得工作负载能够随着需求的增加而扩展。
-
-
多可用区或多区域策略:应利用多层韧性来防止出现不同的故障域。
-
要实现韧性,应使用可构建防御层的方法。其中一层使用多可用区,通过构建高度可用的架构,防止出现较小规模、更常见的中断。另一个防御层用于防御很少发生的事件,例如大范围的自然灾害和区域级别的中断。这个第二层涉及到设计应用程序的架构来跨越多个 AWS 区域。为工作负载实施多区域策略,有助于防御影响到某个国家/地区中较大地理面积的大范围自然灾害,或者区域范围的技术故障。请注意,实施多区域架构会有很高的复杂性,对于大部分工作负载通常来说都是不必要的。有关更多详细信息,请参阅REL10-BP01 将工作负载部署到多个位置。
-
-
代码部署:交错的代码部署策略应该优于同时将代码更改部署到所有单元。
-
这有助于最大限度地减少因部署不当或人为错误而导致多个单元出现故障。有关更多详细信息,请参阅自动实现无需干预的安全部署
。
-
资源
相关最佳实践:
相关文档:
相关视频:
-
AWS re:Invent 2018: Close Loops and Opening Minds: How to Take Control of Systems, Big and Small
-
AWS re:Invent 2018: How AWS Minimizes the Blast Radius of Failures (ARC338)
-
Shuffle-sharding: AWS re:Invent 2019: Introducing The Amazon Builders' Library (DOP328)
-
AWS Summit ANZ 2021 - Everything fails, all the time: Designing for resilience
相关示例: