Resilience analysis framework

John Formento, Bruno Emer, Steven Hooper, Jason Barto, Michael Haken, Amazon Web Services(AWS)

2023년 9월(문서 기록)

일관되고 반복 가능한 표준 및 프로세스는 지속적인 개선의 중요한 부분입니다. 이는 분산 시스템의 복원력에도 적용됩니다. 이 지침의 목적은 장애 모드와 장애 모드가 워크로드에 미치는 영향을 일관되게 분석하는 방법을 제공하는 복원력 분석 프레임워크를 도입하는 것입니다. 설계에서 운영에 이르기까지 워크로드의 수명 주기 전반에 걸쳐이 프레임워크를 사용하면 일관되고 반복 가능한 방식으로 워크로드의 복원력을 더 광범위한 잠재적 장애 모드로 지속적으로 개선할 수 있습니다. 이를 통해 복원력 목표를 충족하고 워크로드의 원하는 복원력 속성을 유지할 수 있습니다.

이 프레임워크는 AWS 솔루션 아키텍처 필드 팀이 업계 전반의 고객과 협력한 경험을 통해 개발되었습니다. 제품 관리자, 소프트웨어 개발자, 시스템 엔지니어, 운영 팀, 아키텍트 등 많은 직책을 가질 수 있는 빌더를 대상으로 합니다. 분석 중인 시스템, 서비스 또는 제품에 대해 가장 잘 알고 있는 사람이 여기에 해당합니다. 지속적인 연습에서 프레임워크를 사용하면 점진적인 발전을 이루고 장기적인 복원력 목표를 달성하는 데 도움이 될 수 있습니다.

프레임워크의 초점은 잠재적 장애 모드와 영향을 완화하는 데 사용할 수 있는 예방 및 수정 제어를 식별하는 것입니다. 종속성의 오류 발생률 증가와 같이 직접 제어하지 않는 구성 요소에서 장애가 발생하더라도 이러한 장애가 워크로드에 미치는 영향과 이러한 장애에 대응하도록 해당 워크로드를 설계하는 방법을 고려해야 합니다. 궁극적으로 제어 중인 완화 조치를 사용하여 대응할 수 있는 장애에 집중해야 합니다.

이 가이드에서는 프레임워크를 간략히 설명한 다음 워크로드를 식별하고 문서화하는 방법, 해당 워크로드에 프레임워크를 적용하는 방법, 발견한 잠재적 장애에 대한 완화 전략을 평가하는 방법을 설명합니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

프레임워크 개요