Opere - AWS Well-Architected Framework

Opere

El éxito operativo de una carga de trabajo se mide por los logros de los resultados del cliente y del negocio. Defina los resultados esperados, decida cómo se medirá el éxito e identifique las métricas que se usarán en los cálculos para determinar si su carga de trabajo y las operaciones se realizan con éxito. El estado de las operaciones incluye tanto el estado de la carga de trabajo como el éxito de las operaciones que se realizan para llevarlas a cabo (por ejemplo, la implementación y la respuesta frente a incidencias). Establezca puntos de referencia de métricas para las mejoras, la investigación y la intervención, y recopile y analice las métricas. A continuación, corrobore si comprende el éxito de las operaciones y cómo cambia con el tiempo. Utilice métricas recopiladas para determinar si satisface las necesidades del cliente y del negocio. Identifique también las áreas a mejorar.

Se requiere eficacia y eficiencia en la gestión de los eventos operativos para lograr excelencia operativa. Se aplica tanto a los eventos operativos planificados como a los no planificados. Utilice los runbooks establecidos para eventos bien conocidos y guías de estrategia para la investigación y para resolver otros problemas. Priorice aquellos eventos que tengan mayor repercusión en el negocio y en el cliente. Asegúrese de que, si se genera una alerta como respuesta a un evento, se ejecutará un proceso asociado con un propietario identificado de forma específica. Defina con antelación el personal necesario para resolver un evento e incluya desencadenadores de derivación para que participe personal adicional, si es necesario, en función de la urgencia y el impacto. Identifique e implique a aquellos individuos que tengan autoridad para decidir sobre las acciones en aquellos casos en los que la respuesta a un evento que no se haya abordado previamente repercuta en el negocio.

Comunique el estado operativo de las cargas de trabajo mediante paneles y notificaciones adaptadas a la audiencia de destino (por ejemplo, cliente, negocio, desarrolladores, operaciones) para que puedan llevar a cabo las medidas adecuadas, gestionen sus expectativas y se les informe cuando se reanuden las operaciones habituales.

En AWS, puede generar vistas de panel de las métricas recopiladas a partir de cargas de trabajo y de AWS de forma nativa. Puede aprovechar CloudWatch o aplicaciones de terceros para agregar y presentar vistas del negocio, la carga de trabajo y las operaciones de las actividades operativas. AWS proporciona información sobre cargas de trabajo mediante capacidades de registros, como AWS X-Ray, CloudWatch, CloudTrail y registros de flujo de VPC que permiten la identificación de problemas de las cargas de trabajo para brindar apoyo a la hora de analizar y corregir la causa raíz.

Las siguientes preguntas se centran en estas consideraciones acerca de la excelencia operativa.

OPS 8 ¿Qué hace para comprender el estado de la carga de trabajo?
Defina, capture y analice las métricas de cargas de trabajo para obtener visibilidad de los eventos de cargas de trabajo y poder tomar las medidas adecuadas.
OPS 9 ¿Qué hace para comprender el estado de las operaciones?
Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas.
OPS 10 ¿Cómo administra la carga de trabajo y los eventos de operaciones?
Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo.

Todas las métricas que recopile deben estar alineadas con una necesidad empresarial y los resultados que apoyan. Desarrolle respuestas con scripts para los eventos bien conocidos y automatice su rendimiento en respuesta al reconocimiento del evento.