REL11-BP07 Diseñar su producto para cumplir objetivos de disponibilidad y acuerdos de nivel de servicio (SLA) de tiempo de actividad
Diseñe su producto para que cumpla objetivos de disponibilidad y acuerdos de nivel de servicio (SLA) de tiempo de actividad. Si publica o acuerda en privado objetivos de disponibilidad o SLA de tiempo de actividad, verifique que su arquitectura y procesos operativos están diseñados para darles cabida.
Resultado deseado: cada aplicación tiene un objetivo definido de disponibilidad y un SLA para las métricas de rendimiento, que pueden supervisarse y mantenerse para alcanzar los resultados empresariales.
Antipatrones usuales:
-
Diseño y despliegue de cargas de trabajo sin establecer acuerdos de nivel de servicio.
-
Las métricas de los SLA se fijan en niveles altos sin justificación ni requisitos empresariales.
-
Establecimiento de SLA sin tener en cuenta las dependencias y sus SLA subyacentes.
-
Los diseños de aplicaciones se crean sin tener en cuenta el modelo de responsabilidad compartida para la resiliencia.
Beneficios de establecer esta práctica recomendada: el diseño de aplicaciones basado en objetivos clave de resistencia ayuda a cumplir los objetivos empresariales y las expectativas de los clientes. Estos objetivos contribuyen a impulsar el proceso de diseño de aplicaciones que evalúa diferentes tecnologías y tiene en cuenta varios compromisos.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: Mediana
Guía para la implementación
El diseño de aplicaciones debe tener en cuenta una serie de requisitos derivados de objetivos empresariales, operativos y financieros. Dentro de los requisitos operativos, las cargas de trabajo deben tener objetivos concretos de métricas de resistencia para que se puedan supervisar y respaldar adecuadamente. Las métricas de resistencia no deben establecerse ni derivarse después de desplegar la carga de trabajo. En cambio, deben definirse durante la fase de diseño y ayudar a orientar diversas decisiones y compromisos.
-
Cada carga de trabajo debe tener su propio conjunto de métricas de resistencia. Esas métricas pueden ser diferentes de las de otras aplicaciones empresariales.
-
Reducir las dependencias puede tener un efecto positivo en la disponibilidad. Cada carga de trabajo debe considerar sus dependencias y sus SLA. En general, seleccione dependencias con objetivos de disponibilidad iguales o superiores a los objetivos de su carga de trabajo.
-
Siempre que sea posible, examine diseños de acoplamiento flexible para que la carga de trabajo pueda funcionar correctamente a pesar del deterioro de las dependencias.
-
Reduzca las dependencias del plano de control, especialmente durante la recuperación o una degradación. Evalúe diseños que sean estáticamente estables para las cargas de trabajo cruciales para la misión. Utilice el ahorro de recursos para aumentar la disponibilidad de esas dependencias en una carga de trabajo.
-
La observabilidad y la instrumentación son fundamentales para alcanzar los SLA al reducir el tiempo medio de detección (MTTD) y el tiempo medio de reparación (MTTR).
-
Los tres factores que se utilizan para mejorar la disponibilidad en los sistemas distribuidos son menos errores frecuentes (MTBF más largo), tiempos de detección de errores más cortos (MTTD más corto) y tiempos de reparación más cortos (MTTR más corto).
-
Establecer y cumplir las métricas de resistencia para una carga de trabajo es un elemento imprescindible en todo diseño eficaz. Estos diseños deben tener en cuenta los compromisos de la complejidad del diseño, las dependencias de los servicios, el rendimiento, la escalabilidad y los costes.
Pasos para la implementación
-
Revise y documente el diseño de la carga de trabajo teniendo presente las siguientes preguntas:
-
¿Dónde se utilizan los planos de control en la carga de trabajo?
-
¿Cómo implementa la carga de trabajo la tolerancia a errores?
-
¿Cuáles son los patrones de diseño para el escalado, el escalado automático, la redundancia y los componentes de alta disponibilidad?
-
¿Cuáles son los requisitos de coherencia y disponibilidad de los datos?
-
¿Se tiene en cuenta el ahorro de recursos o la estabilidad estática de los recursos?
-
¿Cuáles son las dependencias de los servicios?
-
-
Defina las métricas de los SLA basándose en la arquitectura de la carga de trabajo mientras trabaja con las partes interesadas. Considere los SLA de todas las dependencias utilizadas por la carga de trabajo.
-
Una vez establecido el objetivo del SLA, optimice la arquitectura para que cumpla el SLA.
-
Una vez establecido el diseño que cumplirá el SLA, implemente cambios operativos, automatización de procesos y runbooks que también se centren en reducir el MTTD y el MTTR.
-
Una vez desplegado, supervise y cree informes del SLA.
Recursos
Prácticas recomendadas relacionadas:
-
REL10-BP01 Implementar la carga de trabajo en varias ubicaciones
-
REL11-BP01 Supervisar todos los componentes de la carga de trabajo para detectar errores
-
REL12-BP05 Probar la resiliencia mediante la ingeniería del caos
-
REL13-BP01 Definir objetivos de recuperación para la inactividad y la pérdida de datos
Documentos relacionados:
-
Measuring availability (Medición de la disponibilidad)
-
Shared Responsibility Model for Resiliency (Modelo de responsabilidad compartida para la resiliencia)
-
Guidance for Cell-based Architecture on AWS
(Guía para la arquitectura basada en celdas en AWS) -
AWS infrastructure (Infraestructura de AWS)
-
Advanced Multi-AZ Resiliance Patterns whitepaper (Documento técnico sobre patrones avanzados de resistencia multi-AZ)
Servicios relacionados: