Apéndice C ‒ Clasificación de incidentes

El seguimiento de los incidentes dentro de un marco de clasificación es crucial porque el marco proporciona una visión holística de los tipos de fallas y los problemas que afectan al sistema. Si su organización realiza un seguimiento de los incidentes solo dentro de una clase, como las fallas de infraestructura, es posible que pierda información y oportunidades de mejora en otras áreas. Al hacer un seguimiento de los incidentes de varias clases, comprenderá mejor la amplia gama de experimentos de caos que se pueden llevar a cabo. Esta perspectiva ayuda a identificar posibles puntos ciegos y permite ampliar el ámbito de la ingeniería, lo que conduce a un sistema más resiliente y tolerante a los fallos.

El marco de clasificación de incidentes sugerido está diseñado para ayudar a categorizar los incidentes en función de su naturaleza y su impacto potencial. Utiliza una clasificación de alto nivel que agrupa los incidentes en ocho categorías principales:

Problemas de despliegue:
- Implementaciones fallidas
- Fallos de reversión
- Problemas de configuración durante la implementación
Errores y regresiones de software:
- Errores funcionales
- Problemas de integración
- Problemas de rendimiento
- Problemas con las cuotas
- Problemas con el mecanismo de resiliencia (reintentos, tiempos de espera)
- Problemas de integridad de los datos
Problemas con las pruebas:
- Faltan pruebas
- Pruebas ineficaces
- Pruebas escamosas
Fallos de infraestructura:
- Fallos de hardware (servidores, dispositivos de red, almacenamiento)
- Problemas de escalado
- Fallos de dependencia (servicios de terceros APIs)
- Problemas de conectividad de red
Problemas operativos:
- Errores humanos (mala configuración, cambios accidentales)
- Supervisar y alertar de los fallos
- Problemas de planificación de la capacidad
- Fallos de Backup y restauración
Incidentes de seguridad:
- Intentos de acceso no autorizados
- Violaciones de datos
- Ataques de denegación de servicio (DoS)
Interrupciones del servicio de terceros:
- Interrupciones de los proveedores de servicios en
- Fallos de DNS
- Interrupciones en la API externa y en el servicio
Factores ambientales:
- Desastres naturales (terremotos, incendios, inundaciones, cortes de energía)
- Problemas relacionados con el clima

Se trata de un ejemplo no concluyente de un marco de clasificación que puede personalizar para adaptarlo a sus necesidades y a su organización específicas. Recomendamos revisar y actualizar el marco de clasificación periódicamente a medida que el sistema evolucione o surjan nuevos tipos de incidentes.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Apéndice B

Historial de documentos