设计原则 - 可靠性支柱

设计原则

在云中,有许多原则可帮助您提高可靠性。在讨论最佳实践时,请记住以下几点:

  • 自动从故障中恢复:通过监控工作负载的关键性能指标(KPI),您可以在指标超过阈值时触发自动化响应机制。这些 KPI 应该是对业务价值(而不是服务运营的技术方面)的一种度量。这包括自动发送故障通知和跟踪故障,以及启动解决或修复故障的自动恢复流程。借助更高级的自动化功能,您可以在故障发生之前预测和修复故障。

  • 测试恢复过程:在本地环境中,经常会通过执行测试来证明工作负载能够在特定场景中正常运作。通常不会利用测试来验证恢复策略。在云中,您可以测试工作负载的故障情况,并验证您的恢复程序。您可以采用自动化方式来模拟不同的故障,也可以重新建立之前导致故障的场景。此方式可以在实际的故障发生以前揭示您可以测试与修复的故障路径,从而降低风险。

  • 横向扩展以提高聚合工作负载的可用性:使用多个小型资源取代一个大型资源,以降低单个故障对整个工作负载的影响。跨多个较小的资源分配请求,以确保它们不共用常见故障点。

  • 无需预估容量:本地工作负载出现故障的常见原因是资源饱和,即对工作负载的需求超过该工作负载的容量(这通常是拒绝服务攻击的目标)。在云中,您可以监控需求和工作负载利用率,并自动添加或删除资源,以保持最佳水平来满足需求,而不会出现超额预置或预置不足的问题。虽然还有很多限制,但有些限额是可控的,其他限额也可以管理(请参阅“ 管理服务限额和限制)。

  • 通过自动化来管理变更:使用自动化方式对基础设施进行变更。需要管理的变更包括,对自动化的变更,可对其进行跟踪与审查。