Diseño de sistemas distribuidos de alta disponibilidad en AWS - Disponibilidad y más allá: comprender y mejorar la resiliencia de los sistemas distribuidos en AWS

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Diseño de sistemas distribuidos de alta disponibilidad en AWS

Las secciones anteriores han tratado principalmente la disponibilidad teórica de las cargas de trabajo y lo que pueden lograr. Son un conjunto importante de conceptos que hay que tener en cuenta al crear sistemas distribuidos. Le orientarán a la hora de seleccionar las dependencias e implementar la redundancia.

También analizamos la MTTD relación entre MTTR y MTBF la disponibilidad. Esta sección presentará una guía práctica basada en la teoría anterior. En resumen, las cargas de trabajo de ingeniería para una alta disponibilidad tienen MTTR como objetivo aumentar MTBF y disminuir laMTTD.

Si bien lo ideal sería eliminar todos los errores, este objetivo no es nada realista. En sistemas distribuidos de gran tamaño con numerosas dependencias, se producirán errores. «Todo falla todo el tiempo» (véase Werner Vogels, Amazon.comCTO, 10 Lessons from 10 Years of Amazon Web Services) y «no se puede legislar contra el fracaso [así que] céntrese en la detección y la respuesta rápidas». (véase Chris Pinkham, miembro fundador del EC2 equipo de Amazon, ARC335Designing for failure: Architecting resilient systems on) AWS

Esto significa que, con frecuencia, el usuario no tiene control sobre si se produce un error. Lo que sí puede controlar es la rapidez con la que se detecta el error y se hace algo al respecto. Por lo tanto, si bien el aumento MTBF sigue siendo un componente importante de la alta disponibilidad, los cambios más importantes que los clientes tienen bajo su control son reducir MTTD y. MTTR