Respuesta a eventos - Operational Excellence Pillar

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Respuesta a eventos

Debe anticipar eventos operativos, tanto planificados (por ejemplo, promociones de ventas, implementaciones y pruebas de errores) como no planificados (por ejemplo, aumentos repentinos en el uso y errores de componentes). Debe utilizar sus manuales de procedimientos y de estrategias existentes para obtener resultados consistentes cuando responda a las alertas. Las alertas definidas deben ser propiedad de una función o un equipo que sea responsable de la respuesta y las derivaciones. También tendrá que conocer el impacto comercial de los componentes de su sistema y utilizarlo para dirigir los esfuerzos cuando sea necesario. Debe realizar un análisis de la causa raíz (RCA) después de los eventos y, a continuación, evitar que se repitan los errores o documentar las soluciones alternativas.

AWS simplifica la respuesta a los eventos al proporcionar herramientas que respaldan todos los aspectos de su carga de trabajo y sus operaciones en forma de código. Estas herramientas permiten elaborar un script de las respuestas a los eventos de operaciones e impulsar su inicio en respuesta a los datos de supervisión.

En AWS, puede mejorar el tiempo de recuperación sustituyendo los componentes averiados por versiones de funcionalidad comprobada, en lugar de intentar repararlos. Entonces podrá llevar a cabo un análisis del recurso fallido fuera de banda.