As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apêndice B ‒ Medidas quantitativas e qualitativas
Esta seção descreve métricas quantitativas para rastrear melhorias operacionais e medidas qualitativas para avaliar resultados organizacionais mais amplos das práticas de engenharia do caos.
Medidas quantitativas
As medidas quantitativas a seguir fornecem uma estrutura para rastrear as principais métricas que podem demonstrar os incidentes diretos e as melhorias operacionais alcançadas por meio de práticas de engenharia do caos:
-
Incidentes:
-
Frequência de incidentes ‒ Rastreie o número de incidentes em uma estrutura de classificação de incidentes e classifique-os por sua criticidade (crítica, importante, secundária) durante um período de tempo. Para obter mais informações sobre a estrutura de classificação de incidentes, consulte o Apêndice C.
-
Tempo de inatividade e degradação ‒ Meça a duração total do tempo de inatividade ou da degradação do serviço para cada classificação de incidente.
-
Métricas de resposta a incidentes ‒ Para entender os incidentes, meça o tempo de detecção, o tempo de identificação, o tempo de mitigação, o tempo de recuperação, o tempo de escalonamento e outras métricas relacionadas para cada classificação de incidente.
-
Incidentes que afetam o cliente ‒ Acompanhe o número de incidentes que afetam os clientes ou a porcentagem de incidentes que foram contidos antes do impacto no cliente.
-
Mudanças no runbook ‒ Monitore o número de atualizações ou revisões do runbook resultantes de insights obtidos por meio de experimentos de caos. Um runbook fornece instruções detalhadas para realizar uma operação ou procedimento específico para se recuperar de um determinado tipo de incidente.
-
-
Custos:
-
Custos de infraestrutura ‒ Colete dados sobre os custos de infraestrutura, incluindo recursos de computação em nuvem e medidas de redundância que são exigidas pelas ações tomadas para melhorar a resiliência.
-
Impacto no cliente ‒ Meça os impactos na experiência do cliente, nas taxas de rotatividade e na perda de receita associados a falhas do sistema ou tempo de inatividade.
-
Produtividade da equipe ‒ Monitore o tempo gasto pelas equipes de engenharia e operações na resposta a incidentes, combate a incêndios, redação de autópsias e outras tarefas reativas relacionadas a falhas do sistema.
-
-
Melhorias contínuas do sistema ‒ Conte o número de melhorias de processos, mudanças arquitetônicas ou mecanismos de recuperação automatizados implementados como resultado direto de insights de experimentos de caos.
-
Conformidade ‒ Acompanhe os custos e trabalhe para atender aos requisitos regulatórios ou aos padrões do setor relacionados à resiliência operacional.
-
Adoção ‒ Acompanhe a taxa de adoção de práticas caóticas em toda a organização.
-
Satisfação do cliente ‒ Meça as mudanças nas métricas de satisfação do cliente para avaliar como a maior confiabilidade do sistema afeta os negócios.
Medidas qualitativas
As medidas qualitativas a seguir fornecem uma estrutura para rastrear os resultados organizacionais mais amplos alcançados por meio de práticas de engenharia do caos:
-
Confiança e preparação dos funcionários:
-
Pesquise as equipes periodicamente para medir seus níveis de confiança no tratamento de incidentes do mundo real e sua percepção de prontidão para rotações de plantão.
-
Monitore a porcentagem de engenheiros de plantão que participaram de experimentos de caos como parte de seu treinamento.
-
-
Mudança cultural:
-
Avalie o grau em que uma mentalidade de resiliência permeou a organização por meio de pesquisas, sessões de feedback ou auditorias.
-
Monitore o número de equipes que defendem e defendem ativamente as práticas de engenharia do caos.
-
-
Colaboração multifuncional e compartilhamento de conhecimento:
-
Monitore a frequência e a frequência de sessões de compartilhamento de conhecimento entre equipes ou workshops relacionados ao aprendizado de engenharia do caos.
-
Acompanhe o número de iniciativas conjuntas de engenharia do caos envolvendo várias equipes ou departamentos.
-
-
Eficácia do treinamento:
-
Avalie a eficácia dos programas de treinamento em engenharia do caos conduzindo pesquisas ou avaliações pós-treinamento.
-
Monitore o número de engenheiros que participam de programas de treinamento em engenharia do caos e leia autópsias.
-
-
Atração e retenção de talentos:
-
Avalie se o programa de engenharia do caos ajuda a atrair e reter os melhores talentos de engenharia, reduzindo o tempo e o esforço gastos na correção de interrupções.
-
-
Reputação da marca:
-
Acompanhe quaisquer mudanças na percepção ou reputação da marca relacionadas ao comprometimento demonstrado da organização com a resiliência operacional.
-
-
Vantagem competitiva:
-
Acompanhe a vantagem competitiva em relação aos colegas do setor em termos de disponibilidade do sistema.
-