Redução do MTTD - Disponibilidade e muito mais: entendendo e melhorando a resiliência de sistemas distribuídos no AWS

Redução do MTTD

Reduzir o MTTD de uma falha significa descobrir a falha o mais rápido possível. A redução do MTTD é baseada na observabilidade ou na forma como você instrumentou sua workload para entender seu estado. Os clientes devem monitorar suas métricas de experiência do cliente nos subsistemas críticos da workload como forma de identificar proativamente quando ocorre um problema (consulte o Apêndice 1 — Métricas críticas de MTTD e MTTR para obter mais informações sobre essas métricas). ). Os clientes podem usar o Amazon CloudWatch Synthetics para criar canários que monitoram suas APIs e consoles para medir proativamente a experiência do usuário. Há vários outros mecanismos de verificação de integridade que podem ser usados para minimizar o MTTD, como verificações de integridade do Elastic Load Balancing (ELB), verificações de integridade do Amazon Route 53 e muito mais. (Consulte Amazon Builders' Library — Implementando verificações de integridade.)

Seu monitoramento também precisa ser capaz de detectar falhas parciais do sistema como um todo e em seus subsistemas individuais. Suas métricas de disponibilidade, falha e latência devem usar a dimensionalidade dos limites de isolamento de falhas como dimensões métricas do CloudWatch. Por exemplo, considere uma única instância do EC2 que faz parte de uma arquitetura baseada em células, na AZ use1-az1, na região us-east-1, que faz parte da API de atualização da workload que faz parte de seu subsistema de ambiente de gerenciamento. Quando o servidor envia suas métricas, ele pode usar o ID da instância, AZ, região, nome da API e nome do subsistema como dimensões. Isso permite que você tenha observabilidade e defina alarmes em cada uma dessas dimensões para detectar falhas.