REL 5 ¿Cómo diseña las interacciones en un sistema distribuido para mitigar o tolerar errores?
Los sistemas distribuidos dependen de las redes de comunicaciones para interconectar componentes, como servidores o servicios. Su carga de trabajo debe funcionar de manera fiable aunque se pierdan datos o haya latencia en estas redes. Los componentes del sistema distribuido deben funcionar de forma que no repercutan negativamente en otros componentes ni en la carga de trabajo. Estas prácticas recomendadas permiten que las cargas de trabajo toleren el estrés o los errores, se recuperen más rápidamente de ellos y mitiguen el impacto de dichos errores. El resultado es un tiempo medio de recuperación (MTTR) mejor.
Prácticas recomendadas
- REL05-BP01 Implementar una degradación estable para transformar las dependencias estrictas en flexibles
- REL05-BP02 Limitar las solicitudes
- REL05-BP03 Controlar y limitar las llamadas de reintento
- REL05-BP04 Responder rápido a los errores y limitar las colas
- REL05-BP05 Definir tiempos de espera del cliente
- REL05-BP06 Crear servicios sin estado cuando sea posible
- REL05-BP07 Implementar recursos de emergencia