Apéndice C ‒ Clasificación de incidentes - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apéndice C ‒ Clasificación de incidentes

El seguimiento de los incidentes dentro de un marco de clasificación es crucial porque el marco proporciona una visión holística de los tipos de fallas y los problemas que afectan al sistema. Si su organización realiza un seguimiento de los incidentes solo dentro de una clase, como las fallas de infraestructura, es posible que pierda información y oportunidades de mejora en otras áreas. Al hacer un seguimiento de los incidentes de varias clases, comprenderá mejor la amplia gama de experimentos de caos que se pueden llevar a cabo. Esta perspectiva ayuda a identificar posibles puntos ciegos y permite ampliar el ámbito de la ingeniería, lo que conduce a un sistema más resiliente y tolerante a los fallos.

El marco de clasificación de incidentes sugerido está diseñado para ayudar a categorizar los incidentes en función de su naturaleza y su impacto potencial. Utiliza una clasificación de alto nivel que agrupa los incidentes en ocho categorías principales:

  • Problemas de despliegue:

    • Implementaciones fallidas

    • Fallos de reversión

    • Problemas de configuración durante la implementación

  • Errores y regresiones de software:

    • Errores funcionales

    • Problemas de integración

    • Problemas de rendimiento

    • Problemas con las cuotas

    • Problemas con el mecanismo de resiliencia (reintentos, tiempos de espera)

    • Problemas de integridad de los datos

  • Problemas con las pruebas:

    • Faltan pruebas

    • Pruebas ineficaces

    • Pruebas escamosas

  • Fallos de infraestructura:

    • Fallos de hardware (servidores, dispositivos de red, almacenamiento)

    • Problemas de escalado

    • Fallos de dependencia (servicios de terceros APIs)

    • Problemas de conectividad de red

  • Problemas operativos:

    • Errores humanos (mala configuración, cambios accidentales)

    • Supervisar y alertar de los fallos

    • Problemas de planificación de la capacidad

    • Fallos de Backup y restauración

  • Incidentes de seguridad:

    • Intentos de acceso no autorizados

    • Violaciones de datos

    • Ataques de denegación de servicio (DoS)

  • Interrupciones del servicio de terceros:

    • Interrupciones de los proveedores de servicios en

    • Fallos de DNS

    • Interrupciones en la API externa y en el servicio

  • Factores ambientales:

    • Desastres naturales (terremotos, incendios, inundaciones, cortes de energía)

    • Problemas relacionados con el clima

Se trata de un ejemplo no concluyente de un marco de clasificación que puede personalizar para adaptarlo a sus necesidades y a su organización específicas. Recomendamos revisar y actualizar el marco de clasificación periódicamente a medida que el sistema evolucione o surjan nuevos tipos de incidentes.