Observabilidade operacional. - Práticas recomendadas para políticas

Observabilidade operacional.

A observabilidade é necessária para obter insights acionáveis sobre o desempenho de seus ambientes e ajudá-lo a detectar e investigar problemas. Ele também tem uma finalidade secundária que permite definir e medir indicadores-chave de desempenho (KPIs) e objetivos de nível de serviço (SLOs), como tempo de atividade. Para a maioria das organizações, os KPIs operacionais importantes são o tempo médio de detecção (MTTD) e o tempo médio de recuperação (MTTR) de um incidente.

Em toda a observabilidade, o contexto é importante, porque os dados são coletados e, em seguida, as tags associadas são coletadas. Independentemente do serviço, aplicativo ou nível de aplicativo em que você está se concentrando, você pode filtrar e analisar esse conjunto de dados específico. As tags podem ser usadas para automatizar a integração aos alarmes do CloudWatch, para que as equipes certas possam ser alertadas quando determinados limites métricos forem violados. Por exemplo, uma chave de tag example-inc:ops:alarm-tag e o valor nela podem indicar a criação do alarme do CloudWatch. Uma solução que demonstra isso está descrita em Use tags para criar e manter alarmes do Amazon CloudWatch para instâncias do Amazon EC2.

Ter muitos alarmes configurados pode criar facilmente uma tempestade de alertas, quando um grande número de alarmes ou notificações sobrecarrega rapidamente os operadores e reduz sua eficácia geral, enquanto os operadores fazem a triagem e priorizam manualmente os alarmes individuais. Um contexto adicional para os alarmes pode ser fornecido na forma de tags, o que significa que as regras podem ser definidas no Amazon EventBridge para ajudar a garantir que o foco seja dado ao problema inicial, e não às dependências posteriores.

O papel das operações junto com o DevOps geralmente é esquecido, mas para muitas organizações, as equipes de operações centrais ainda fornecem uma primeira resposta crítica fora do horário comercial normal. (Mais detalhes sobre esse modelo podem ser encontrados no whitepaper de Excelência Operacional.) Diferentemente da equipe de DevOps que é proprietária da carga de trabalho, ela normalmente não tem a mesma profundidade de conhecimento. Portanto, o contexto que as tags fornecem nos painéis e alertas pode direcioná-las para o runbook correto para o problema ou iniciar um runbook automatizado (consulte a postagem do blog Automatizando alarmes do Amazon CloudWatch com). AWS Systems Manager