가용성에 대한 이해 - 가용성과 그 이상: AWS 분산 시스템의 복원력에 대한 이해 및 개선

가용성에 대한 이해

가용성은 복원력을 정량적으로 측정할 수 있는 주요 방법 중 하나입니다. A로 표시하는 가용성은 워크로드를 사용할 수 있는 시간의 백분율로 정의합니다. 가용성은 측정되는 총 시간(예상 “가동 시간”과 예상 “가동 중지 시간”)에 대한 예상 “가동 시간"(사용 가능)의 비율입니다.

방정식 그림 A = 가동 시간 / (가동 시간 + 가동 중지 시간)

수식 1: 가용성

이 공식을 더 잘 이해하기 위해 가동 시간과 가동 중지 시간을 측정하는 방법을 살펴보겠습니다. 먼저 워크로드가 고장 없이 얼마나 오래 지속되는지 알고 싶습니다. 이를 평균 고장 간격(MTBF)이라고 하며, 워크로드가 정상적으로 작동하기 시작한 시점과 다음 고장 시점 사이의 평균 시간을 의미합니다. 그런 다음 고장이 발생한 후 복구하는 데 시간이 얼마나 걸릴지 알고 싶습니다.

이를 평균 수리(또는 복구) 시간(MTTR)이라고 하며, 고장이 발생한 하위 시스템을 수리하거나 서비스 상태로 복원하는 동안 워크로드를 사용할 수 없는 기간을 MTTR(평균 복구 시간)이라고 합니다. MTTR에서 중요한 기간은 평균 탐지 시간(MTTD), 즉 고장 발생 시점과 수리 작업 시작 시점 사이의 시간입니다. 다음 다이어그램은 이러한 모든 지표가 어떻게 관련되어 있는지를 보여줍니다.

MTTD, MTTR 및 MTBF 간의 관계를 보여주는 다이어그램

MTTD, MTTR 및 MTBF 간의 관계

따라서 워크로드가 가동되는 시간인 MTBF와 워크로드가 중단된 시간인 MTTR을 사용하여 가용성 A를 표현할 수 있습니다.

방정식 그림 A = MTBF / (MTBF + MTTR)

수식 2: MTBF와 MTTR 간의 관계

그리고 워크로드가 “다운(사용할 수 없음)”될 확률은 고장 확률 F로 표시합니다.

방정식 그림 F = 1 - A

수식 3: 고장 확률

신뢰성이란 요청 시 지정된 응답 시간 내에 워크로드가 올바른 작업을 수행할 수 있는 능력을 말합니다. 이것이 가용성을 측정하는 척도입니다. 워크로드 고장 빈도를 줄이거나(MTBF 연장) 복구 시간이 짧을수록(MTTR 단축) 가용성이 향상됩니다.

규칙 1

고장 빈도 감소(MTBF 연장), 고장 감지 시간 단축(MTTD 단축), 수리 시간 단축(MTTR 단축)은 분산 시스템에서 가용성을 개선하는 데 사용되는 세 가지 요소입니다.