Entendendo a disponibilidade - Disponibilidade e muito mais: Compreendendo e melhorando a resiliência de sistemas distribuídos emAWS

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Entendendo a disponibilidade

A disponibilidade é uma das principais maneiras pelas quais podemos medir quantitativamente a resiliência. Definimos disponibilidade, A, como a porcentagem de tempo em que uma carga de trabalho está disponível para uso. É uma relação entre o “tempo de atividade” esperado (estar disponível) e o tempo total que está sendo medido (o “tempo de atividade” esperado mais o “tempo de inatividade” esperado).

Imagem da equação. A = tempo de atividade/(tempo de atividade + tempo de inatividade)

Equação 1 - Disponibilidade

Para entender melhor essa fórmula, veremos como medir o tempo de atividade e o tempo de inatividade. Primeiro, queremos saber quanto tempo a carga de trabalho durará sem falhas. Chamamos esse tempo médio entre falhas (MTBF), o tempo médio entre o início da operação normal de uma carga de trabalho e sua próxima falha. Em seguida, queremos saber quanto tempo levará para se recuperar após a falha.

Chamamos esse tempo médio de reparo (ou recuperação) (MTTR), um período em que a carga de trabalho não está disponível enquanto o subsistema com defeito é reparado ou retorna ao serviço. Um período de tempo importante no MTTR é o tempo médio de detecção (MTTD), a quantidade de tempo entre a ocorrência de uma falha e o início das operações de reparo. O diagrama a seguir demonstra como todas essas métricas estão relacionadas.

Diagrama mostrando a relação entre MTTD, MTTR e MTBF

A relação entre MTTD, MTTR e MTBF

Assim, podemos expressar disponibilidade, A, usando MTBF, o tempo em que a carga de trabalho está ativa, e MTTR, o tempo em que a carga de trabalho está inativa.

Imagem da equação. A = MTBF/(MTBF + MTTR)

Equação 2 - Relação entre MTBF e MTTR

E a probabilidade de a carga de trabalho estar “baixa” (ou seja, não disponível) é a probabilidade de falha, F.

Imagem da equação. F = 1 - A

Equação 3 - Probabilidade de falha

Confiabilidade é a capacidade de uma carga de trabalho fazer a coisa certa, quando solicitada, dentro do tempo de resposta especificado. Isso é o que mede a disponibilidade. Ter uma carga de trabalho falhar com menos frequência (MTBF mais longo) ou ter um tempo de reparo mais curto (MTTR mais curto) melhora sua disponibilidade.

Rule1

Falhas menos frequentes (MTBF mais longo), tempos de detecção de falhas mais curtos (MTTD mais curto) e tempos de reparo mais curtos (MTTR mais curto) são os três fatores usados para melhorar a disponibilidade em sistemas distribuídos.