Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Respuesta a eventos
Debe anticipar eventos operativos, tanto planificados (por ejemplo, promociones de ventas, implementaciones y pruebas de errores) como no planificados (por ejemplo, aumentos repentinos en el uso y errores de componentes). Debe utilizar sus manuales de procedimientos y de estrategias existentes para obtener resultados consistentes cuando responda a las alertas. Las alertas definidas deben ser propiedad de una función o un equipo que sea responsable de la respuesta y las derivaciones. También tendrá que conocer el impacto comercial de los componentes de su sistema y utilizarlo para dirigir los esfuerzos cuando sea necesario. Debe realizar un análisis de la causa raíz (RCA) después de los eventos y, a continuación, evitar que se repitan los errores o documentar las soluciones alternativas.
AWS simplifica la respuesta a los eventos al proporcionar herramientas que respaldan todos los aspectos de su carga de trabajo y sus operaciones en forma de código. Estas herramientas permiten elaborar un script de las respuestas a los eventos de operaciones e impulsar su inicio en respuesta a los datos de supervisión.
En AWS, puede mejorar el tiempo de recuperación sustituyendo los componentes averiados por versiones de funcionalidad comprobada, en lugar de intentar repararlos. Entonces podrá llevar a cabo un análisis del recurso fallido fuera de banda.
Prácticas recomendadas
- OPS10-BP01 Utilice un proceso para la gestión de eventos, incidentes y problemas
- OPS10-BP02 Tenga un proceso por alerta
- OPS10-BP03 Prioriza los eventos operativos en función del impacto empresarial
- OPS10-BP04 Defina las rutas de escalamiento
- OPS10-BP05 Defina un plan de comunicación con el cliente para los eventos que afecten al servicio
- OPS10-BP06 Comunique el estado a través de paneles
- OPS10-BP07 Automatice las respuestas a los eventos