设计原则 - AWS Well-Architected Framework

设计原则

在云中实现可靠性有五个设计原则:

  • 自动从故障中恢复:通过监控工作负载的关键绩效指标 (KPI),您可以在指标超过阈值时触发自动化功能。这些 KPI 应该是对商业价值(而不是服务运营的技术方面)的一种度量。这包括自动发送故障通知和跟踪故障,以及启动解决或修复故障的自动恢复流程。借助更高级的自动化功能,您可以在故障发生之前预测和修复故障。

  • 测试恢复过程:在本地环境中,经常会通过执行测试来证明工作负载能够在特定场景中正常运作。通常不会利用测试来验证恢复策略。在云中,您可以测试工作负载的故障情况,并验证您的恢复程序。您可以采用自动化方式来模拟不同的故障,也可以重新建立之前导致故障的场景。此方式可以在实际的故障发生以前揭示您可以测试与修复的故障路径,从而降低风险。

  • 横向扩展以提高聚合工作负载的可用性:使用多个小型资源替换一个大型资源,以降低单个故障对整个工作负载的影响。跨多个较小的资源分配请求,以确保它们不共用常见故障点。

  • 无需再预估容量:本地工作负载出现故障的常见原因是资源饱和,即对工作负载的需求超过该工作负载的容量(这通常是拒绝服务攻击的目标)。在云中,您可以监控需求和工作负载利用率,并自动添加或删除资源,以保持最佳水平来满足需求,而不会出现超额预置或预置不足的问题。虽然还有很多限制,但有些配额是可控的,其他配额也可以管理(请参阅“管理Service Quotas与限制”)。

  • 管理自动化变更:应利用自动化功能对基础设施进行更改。需要管理的变更包括,对自动化的变更,可对其进行跟踪与审查。