As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Reduzindo o MTTD
Reduzir o MTTD de uma falha significa descobrir a falha o mais rápido possível. A redução do MTTD é baseada na observabilidade ou em como você instrumentou sua carga de trabalho para entender seu estado. Os clientes devem monitorar suas métricas de experiência do cliente nos subsistemas críticos de sua carga de trabalho como forma de identificar proativamente quando ocorre um problema (consulte o Apêndice 1 — Métricas críticas de MTTD e MTTR para obter mais informações sobre essas métricas). ). Os clientes podem usar o Amazon CloudWatch Synthetics para criar canários que monitoram suas APIs e consoles para medir proativamente a experiência do usuário. Há vários outros mecanismos de verificação de integridade que podem ser usados para minimizar o MTTD, como verificações de integridade do Elastic Load Balancing (ELB), verificações de integridade do Amazon Route 53 e muito mais. (Consulte a Biblioteca do Amazon Builders — Implementação de verificações de saúde
Seu monitoramento também precisa ser capaz de detectar falhas parciais do sistema como um todo e em seus subsistemas individuais. Suas métricas de disponibilidade, falha e latência devem usar a dimensionalidade dos limites de isolamento de falhas como dimensões CloudWatchmétricas. Por exemplo, considere uma única instância do EC2 que faz parte de uma arquitetura baseada em células, no use1-az1 AZ, na região us-east-1, que faz parte da API de atualização da carga de trabalho que faz parte do subsistema do plano de controle. Quando o servidor envia suas métricas, ele pode usar seu ID de instância, AZ, região, nome da API e nome do subsistema como dimensões. Isso permite que você tenha observabilidade e defina alarmes em cada uma dessas dimensões para detectar falhas.