减少 MTTD - 可用性及其他:了解和提高分布式系统的弹性 AWS

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

减少 MTTD

减少故障意味着要尽快发现故障。MTTD缩短MTTD是基于可观察性,或者你如何对工作负载进行检测以了解其状态。客户应监控其工作负载关键子系统中的客户体验指标,以便主动识别问题何时发生(请参阅附录1),MTTD并监控MTTR关键指标以了解有关这些指标的更多信息。)。 客户可以使用 Amazon CloudWatch Synthetics 创建用于监控您APIs和控制台的金丝雀,从而主动衡量用户体验。还有许多其他运行状况检查机制可用于最大限度地减少运行状况,例如 Elastic Load Balancing (ELB) 运行状况检查Amazon Route 53 运行状况检查等。MTTD(参见 Amazon Builders's Library — 实施运行状况检查。)

您的监控机制还需要能够检测整个系统和单个子系统的部分故障。您的可用性、故障和延迟指标应使用故障隔离边界的维CloudWatch 度作为指标维度。例如,假设一个属于基于单元的架构、use1-az1 AZ、useast-1 区域中的单个EC2实例,它是工作负载更新的一部分,也是其控制平面子系统的一部分。API当服务器推送其指标时,它可以使用其实例 ID、可用区、区域、API名称和子系统名称作为维度。这让您可以进行观测,并针对每个维度设置警报以便检测故障。