As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Entendendo a disponibilidade
A disponibilidade é uma das principais maneiras pelas quais podemos medir quantitativamente a resiliência. Definimos disponibilidade, A, como a porcentagem de tempo em que uma carga de trabalho está disponível para uso. É uma relação entre o “tempo de atividade” esperado (estar disponível) e o tempo total que está sendo medido (o “tempo de atividade” esperado mais o “tempo de inatividade” esperado).

Equação 1 - Disponibilidade
Para entender melhor essa fórmula, veremos como medir o tempo de atividade e o tempo de inatividade. Primeiro, queremos saber quanto tempo a carga de trabalho durará sem falhas. Chamamos esse tempo médio entre falhas (MTBF), o tempo médio entre o início da operação normal de uma carga de trabalho e sua próxima falha. Em seguida, queremos saber quanto tempo levará para se recuperar após a falha.
Chamamos esse tempo médio de reparo (ou recuperação) (MTTR), um período em que a carga de trabalho não está disponível enquanto o subsistema com defeito é reparado ou retorna ao serviço. Um período de tempo importante no MTTR é o tempo médio de detecção (MTTD), a quantidade de tempo entre a ocorrência de uma falha e o início das operações de reparo. O diagrama a seguir demonstra como todas essas métricas estão relacionadas.

A relação entre MTTD, MTTR e MTBF
Assim, podemos expressar disponibilidade, A, usando MTBF, o tempo em que a carga de trabalho está ativa, e MTTR, o tempo em que a carga de trabalho está inativa.

Equação 2 - Relação entre MTBF e MTTR
E a probabilidade de a carga de trabalho estar “baixa” (ou seja, não disponível) é a probabilidade de falha, F.

Equação 3 - Probabilidade de falha
Confiabilidade é a capacidade de uma carga de trabalho fazer a coisa certa, quando solicitada, dentro do tempo de resposta especificado. Isso é o que mede a disponibilidade. Ter uma carga de trabalho falhar com menos frequência (MTBF mais longo) ou ter um tempo de reparo mais curto (MTTR mais curto) melhora sua disponibilidade.
Rule1
Falhas menos frequentes (MTBF mais longo), tempos de detecção de falhas mais curtos (MTTD mais curto) e tempos de reparo mais curtos (MTTR mais curto) são os três fatores usados para melhorar a disponibilidade em sistemas distribuídos.