Operación
La observabilidad le permite centrarse en datos significativos y comprender las interacciones y los resultados de su carga de trabajo. Al concentrarse en la información esencial y eliminar los datos innecesarios, mantiene un enfoque sencillo para comprender el rendimiento de las cargas de trabajo. No solo es esencial recopilar datos, sino también interpretarlos correctamente. Defina puntos de referencia claros, establezca umbrales de alerta adecuados y supervise activamente cualquier desviación. Un cambio en una métrica clave, especialmente cuando se correlaciona con otros datos, puede identificar áreas problemáticas concretas. Con la observabilidad, está mejor preparado para prever y abordar los posibles desafíos, lo que garantiza que su carga de trabajo funcione sin problemas y satisfaga las necesidades empresariales.
El éxito operativo de una carga de trabajo se mide por los logros de los resultados del cliente y del negocio. Defina los resultados esperados, decida cómo se medirá el éxito e identifique las métricas que se usarán en los cálculos para determinar si su carga de trabajo y las operaciones se realizan con éxito. El estado de las operaciones incluye tanto el estado de la carga de trabajo como el éxito de las operaciones que se realizan para llevarlas a cabo (por ejemplo, la implementación y la respuesta frente a incidencias). Establezca puntos de referencia de métricas para las mejoras, la investigación y la intervención, y recopile y analice las métricas. A continuación, corrobore si comprende el éxito de las operaciones y cómo cambia con el tiempo. Utilice métricas recopiladas para determinar si satisface las necesidades del cliente y del negocio. Identifique también las áreas a mejorar.
Se requiere eficacia y eficiencia en la gestión de los eventos operativos para lograr excelencia operativa. Se aplica tanto a los eventos operativos planificados como a los no planificados. Utilice los runbooks establecidos para eventos bien conocidos y las guías de estrategia como ayuda para investigar y para resolver otros problemas. Priorice aquellos eventos que tengan mayor repercusión en el negocio y en el cliente. Verifique que, si se genera una alerta como respuesta a un evento, se ejecutará un proceso asociado con un encargado identificado de forma específica. Defina con antelación el personal necesario para resolver un evento e incluya procesos de escalamiento para que participe personal adicional, si es necesario, en función de la urgencia y el impacto. Identifique e implique a aquellos individuos que tengan autoridad para decidir sobre las acciones en aquellos casos en los que la respuesta a un evento que no se haya abordado previamente repercuta en el negocio.
Comunique el estado operativo de las cargas de trabajo mediante paneles y notificaciones adaptadas a la audiencia de destino (por ejemplo, cliente, negocio, desarrolladores, operaciones) para que puedan llevar a cabo las medidas adecuadas, gestionen sus expectativas y se les informe cuando se reanuden las operaciones habituales.
En AWS, puede generar vistas de panel de las métricas recopiladas a partir de cargas de trabajo y de AWS de forma nativa. Puede aprovechar CloudWatch o aplicaciones de terceros para añadir y presentar vistas de la empresa, la carga de trabajo y las operaciones de las actividades operativas. AWS proporciona información sobre cargas de trabajo mediante capacidades de registro, como AWS X-Ray, CloudWatch, CloudTrail y registros de flujo de VPC para identificar problemas de las cargas de trabajo a fin de ofrecer apoyo a la hora de analizar y corregir la causa raíz.
Las siguientes preguntas se centran en estas consideraciones sobre la excelencia operativa.
OPS 8: ¿Cómo utiliza la observabilidad de la carga de trabajo en su organización? |
---|
Recurra a la observabilidad para garantizar un estado óptimo de la carga de trabajo. Utilice métricas, registros y rastros pertinentes para obtener una visión integral del rendimiento de su carga de trabajo y abordar los problemas de manera eficiente. |
OPS 9: ¿Qué hace para comprender el estado de las operaciones? |
---|
Defina, capture y analice las métricas de las operaciones para obtener visibilidad de los eventos de operaciones y poder tomar las medidas adecuadas. |
OPS 10: ¿Cómo administra la carga de trabajo y los eventos de operaciones? |
---|
Prepare y valide los procedimientos de respuesta a los eventos para minimizar la interrupción de la carga de trabajo. |
Todas las métricas que recopile deben estar alineadas con una necesidad empresarial y los objetivos a los que estas contribuyen. Desarrolle respuestas con scripts para los eventos bien conocidos y automatice su rendimiento en respuesta al reconocimiento del evento.