OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas - AWS Well-Architected Framework

OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas

La capacidad de administrar eficazmente los eventos, los incidentes y los problemas es clave para mantener el estado y el rendimiento de las cargas de trabajo. Es crucial reconocer y comprender las diferencias entre estos elementos para desarrollar una estrategia eficaz de respuesta y resolución. Establecer y seguir un proceso bien definido para cada aspecto ayuda a su equipo a administrar de forma rápida y eficaz cualquier desafío operativo que surja.

Resultado deseado: Su organización administra eficazmente los eventos, incidentes y problemas operativos a través de procesos bien documentados y almacenados de forma centralizada. Estos procesos se actualizan constantemente para reflejar los cambios, agilizar la gestión y mantener una alta fiabilidad del servicio y el rendimiento de las cargas de trabajo.

Patrones comunes de uso no recomendados:

  • Responde a los eventos reactivamente, en lugar de hacerlo proactivamente.

  • Se adoptan enfoques incoherentes para diferentes tipos de eventos o incidentes.

  • Su organización no analiza los incidentes ni aprende de ellos para evitar que ocurran en el futuro.

Beneficios de establecer esta práctica recomendada:

  • Procesos de respuesta simplificados y estandarizados.

  • Reducción del impacto de los incidentes en los servicios y los clientes.

  • Resolución rápida de problemas.

  • Mejora continua de los procesos operativos.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Alto

Guía para la implementación

La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan.

Comprensión de los eventos, los incidentes y los problemas

  • Eventos: Un evento consiste en observar una acción, un suceso o un cambio de estado. Los eventos pueden planificarse o no y pueden originarse de forma interna o externa en la carga de trabajo.

  • Incidentes: Los incidentes son eventos que requieren una respuesta, como interrupciones no planificadas o mermas en la calidad del servicio. Representan interrupciones que requieren atención inmediata para restablecer el funcionamiento normal de las cargas de trabajo.

  • Problemas: Los problemas son las causas subyacentes de uno o más incidentes. Identificar y resolver los problemas implica profundizar en los incidentes para evitar que ocurran en el futuro.

Pasos para la implementación

Eventos

  1. Monitorice los eventos:

  2. Cree procesos:

    • Desarrolle un proceso para evaluar qué eventos son importantes y requieren supervisión. Esto implica establecer umbrales y parámetros para las actividades normales y anómalas.

    • Determine los criterios por los que un evento pasa a ser un incidente. Por ejemplo, puede basarse en la gravedad, el impacto en los usuarios o la desviación del comportamiento esperado.

    • Revise periódicamente los procesos de supervisión y respuesta a los eventos. Por ejemplo, analice los incidentes pasados o ajuste los umbrales y los mecanismos de alerta.

Incidentes

  1. Responda a los incidentes:

    • Utilice la información de las herramientas de observabilidad para identificar y responder rápidamente a los incidentes.

    • Implemente el Centro de operaciones de AWS Systems Manager para agregar, organizar y priorizar los elementos e incidentes operativos.

    • Utilice servicios como Amazon CloudWatch y AWS X-Ray para realizar análisis detallados y resolver problemas.

    • Considere la posibilidad de usar AWS Managed Services (AMS) para mejorar la administración de incidentes, y aprovechar así sus capacidades proactivas, preventivas y de detección. AMS ofrece asistencia operativa con servicios de supervisión, detección y respuesta a incidentes y administración de la seguridad, entre otros.

    • Los clientes de Enterprise Support pueden usar Detección y respuesta a incidentes de AWS, que ofrece supervisión proactiva continua y administración de incidentes para cargas de trabajo de producción.

  2. Cree un proceso de administración de incidentes:

    • Establezca un proceso estructurado de administración de incidentes, que incluya protocolos de comunicación, pasos para resolver problemas y roles claramente establecidos.

    • Integre la administración de incidentes con herramientas como AWS Chatbot para ofrecer una respuesta y coordinación eficientes.

    • Clasifique los incidentes por gravedad, con planes de respuesta a incidentes predefinidos para cada categoría.

  3. Aprenda y mejore:

    • Analice los incidentes una vez que han ocurrido para entender las causas raíz y la eficacia de la resolución.

    • Actualice y mejore continuamente los planes de respuesta basándose en las revisiones y en la evolución de los procedimientos.

    • Documente y comparta las lecciones aprendidas entre los equipos para mejorar la resiliencia operativa.

    • Los clientes de Enterprise Support pueden solicitar el Taller de gestión de incidentes a su gerente técnico de cuentas. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora.

Los problemas

  1. Identifique los problemas:

    • Utilice los datos de incidentes anteriores para identificar patrones recurrentes que pueden indicar problemas sistémicos más profundos.

    • Utilice herramientas como AWS CloudTrail y Amazon CloudWatch para analizar las tendencias y descubrir problemas subyacentes.

    • Involucre a equipos multifuncionales, incluidas las unidades de operaciones, desarrollo y negocios, para obtener diversas perspectivas sobre las causas raíz.

  2. Cree un proceso de administración de problemas:

    • Desarrolle un proceso estructurado para la administración de problemas, y céntrese en soluciones a largo plazo en lugar de en soluciones rápidas.

    • Incorpore técnicas de análisis de causa raíz (RCA) para investigar y comprender las causas subyacentes de los incidentes.

    • Actualice las políticas, los procedimientos y la infraestructura operativos en función de los resultados para evitar que se repitan.

  3. Continúe mejorando:

    • Fomente una cultura de aprendizaje y mejora constantes, y anime a los equipos a identificar y abordar de manera proactiva los posibles problemas.

    • Revise periódicamente los procesos y herramientas de administración de problemas para adaptarlos a la evolución de la empresa y la tecnología.

    • Comparta información y prácticas recomendadas con el resto de la organización para crear un entorno operativo más resiliente y eficiente.

  4. Utilice AWS Support:

    • Utilice recursos de asistencia de AWS, como AWS Trusted Advisor, para obtener orientación proactiva y recomendaciones de optimización.

    • Los clientes de Enterprise Support pueden acceder a programas especializados como AWS Countdown para obtener asistencia durante eventos críticos.

Nivel de esfuerzo para el plan de implementación: Medio

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados:

Servicios relacionados: