결론

이 문서 전체에 걸쳐 고가용성을 위한 12가지 규칙을 세웠습니다.

규칙 1: 고장 빈도 감소(MTBF 연장), 고장 감지 시간 단축(MTTD 단축), 수리 시간 단축(MTTR 단축)은 분산 시스템에서 가용성을 개선하는 데 사용되는 세 가지 요소입니다.
규칙 2: 워크로드의 소프트웨어 가용성은 워크로드의 전체 가용성을 결정하는 중요한 요소이므로 다른 구성 요소와 마찬가지로 중점을 두어야 합니다.
규칙 3: 종속성을 줄이면 가용성에 긍정적인 영향을 미칠 수 있습니다.
규칙 4: 일반적으로 가용성 목표가 워크로드 목표와 같거나 더 큰 종속성을 선택하세요.
규칙 5: 스페어링을 사용하여 워크로드의 종속성 가용성을 높이세요.
규칙 6: 스페어링의 비용 효율성에는 상한선이 있습니다. 필요한 가용성을 달성하는 데 필요한 최소한의 스페어를 활용하세요.
규칙 7: 특히 복구 중에는 데이터 영역의 컨트롤 플레인에 대한 종속성을 고려하지 마세요.
규칙 8: 가능한 경우 종속성이 손상되더라도 워크로드가 올바르게 작동할 수 있도록 종속성을 느슨하게 결합하세요.
규칙 9: 관찰성과 계측은 MTTD 및 MTTR을 줄이는 데 매우 중요합니다.
규칙 10: 문제 해결이 아닌 영향 완화에 집중하세요. 정상 작동 상태로 돌아가는 가장 빠른 길을 택하세요.
규칙 11: 고장 격리는 전체 고장률을 줄여 영향 범위를 줄이고 워크로드의 MTBF를 증가시킵니다.
규칙 12: 운영자가 올바른 일을 쉽게 할 수 있도록 하세요.

워크로드 가용성 개선은 MTTD 및 MTTR을 줄이고 MTBF를 늘려야 합니다. 요약하자면, 기술, 인력, 프로세스를 아우르는 가용성을 개선하기 위한 다음과 같은 방법을 논의했습니다.

MTTD
- 고객 경험 지표의 사전 모니터링을 통해 MTTD를 줄이세요.
- 세분화된 상태 확인을 활용하여 장애 조치를 신속하게 수행할 수 있습니다.
MTTR
- 영향 범위 및 운영 상태 지표를 모니터링합니다.
- 1/재시작, 2/재부팅, 3/이미지 재생성/재배치, 4/교체를 수행하여 MTTR을 줄이세요.
- 영향 범위를 이해하여 고장을 우회하세요.
- 가상 머신이나 물리적 호스트를 통한 컨테이너 및 서버리스 기능과 같이 재시작 시간이 더 빠른 서비스를 활용하세요.
- 가능한 경우 실패한 배포를 자동으로 롤백합니다.
- 진단 작업 및 재시작 절차를 위한 런북 및 운영 도구를 마련하세요.
MTBF
- 소프트웨어가 프로덕션에 출시되기 전에 엄격한 테스트를 통해 소프트웨어의 버그와 결함을 제거합니다.
- 카오스 엔지니어링과 오류 주입을 구현하세요.
- 고장을 견딜 수 있도록 종속성을 적절히 절약하세요.
- 고장 컨테이너를 통해 고장 발생 시 영향 범위를 최소화합니다.
- 배포 및 변경에 대한 표준을 구현하세요.
- 단순하고 직관적이며 일관되고 잘 문서화된 운영자 인터페이스를 설계하세요.
- 운영 우수성을 위한 목표를 설정하세요.
- 가용성이 워크로드의 중요한 요소인 경우 새 기능 릴리스보다 안정성을 우선시하세요.
- 제한이나 부하 제거 또는 두 가지 방법을 모두 사용하여 사용량 할당량을 구현하여 과부하를 방지하세요.

고장 예방에 완전히 성공할 수는 없다는 점을 기억하세요. 영향의 범위와 규모를 제한하는 최상의 고장 격리 기능을 갖춘 소프트웨어 설계에 집중하고, 이상적으로는 그 영향을 “가동 중지” 임계값 이하로 유지하고 매우 빠르고 매우 안정적인 탐지 및 완화에 투자하세요. 현대의 분산 시스템은 여전히 고장을 피할 수 없는 상황으로 받아들이고 고가용성을 위해 모든 수준에서 설계되어야 합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

증가 중 MTBF

부록 1 - MTTD 및 MTTR 중요 지표