4단계: 운영

이 단계에서는 시스템이 복원력을 유지하고 개선하는 데 사용하는 운영 관행에 중점을 둡니다. 운영 우수성 문화를 구축하면 이러한 관행에 대한 표준과 일관성을 수립하는 데 도움이 됩니다.

관찰성

복원력을 효과적으로 측정하려면 서버 측과 클라이언트 측 모두에서 애플리케이션을 모니터링합니다.

서버 측 모니터링의 경우 선호하는 인프라 모니터링 도구를 사용합니다. 이러한 도구를 사용하여 인프라 또는 애플리케이션의 주요 성능 지표(KPIs) 위반에 대한 대시보드, 경보 및 알림을 설정합니다. Amazon CloudWatch를 사용하는 경우 인프라 또는 애플리케이션 장애에 대한 알림을 제공하도록 대시보드 및 경보를 구성합니다.

많은에 대한 할당량을 관리하는 데 도움이 AWS 서비스 되는 Service Quotas를 사용합니다 AWS 서비스. 이렇게 하면 프로덕션 워크로드를 확장할 때 서비스 할당량 문제를 방지할 수 있습니다 AWS. 워크로드의 중요한 서비스에 대한 임계값에 도달하면 알림을 보내는 CloudWatch 경보를 생성할 수도 있습니다.

클라이언트 측 모니터링의 경우 가용성, 페이지 로드 시간 또는 링크 손상과 같은 지표에 대해 애플리케이션을 모니터링하는 스크립트 또는 카나리아를 생성하여 가상 모니터링을 설정합니다. 합성 모니터링은 고객과 동일한 경로와 작업을 수행하여 고객의 경험을 지속적으로 확인합니다. Amazon CloudWatch Synthetics canary를 사용하여 애플리케이션을 시각적으로 모니터링할 수 있습니다. 시각적 모니터링 블루프린트를 사용하면 실행 중인 애플리케이션의 스크린샷을 기준 스크린샷과 비교하는 카나리아를 빠르게 생성하거나 업데이트할 수 있습니다. 또한 CloudWatch RUM을 사용하여 실제 사용자 모니터링을 수행하여 실제 사용자 세션에서 웹 애플리케이션 성능에 대한 클라이언트 측 데이터를 거의 실시간으로 수집하고 볼 수 있습니다. 페이지 로드 시간, 클라이언트 측 오류 및 사용자 동작과 같은 데이터를 시각화하고 분석할 수 있습니다.

추가 리소스:

지속적인 복원력

를 사용하여 미션 크리티컬 워크로드의 복원력을 정기적으로 검토합니다 AWS Well-Architected Tool. 또한 게임 데이를 실행하여 복원력 메커니즘을 설정한 알려진 이벤트를 시뮬레이션하는 것도 고려해 보세요. 예를 들어 가용 영역 장애를 시뮬레이션하고 다중 AZ 장애 조치를 실행할 수 있습니다. 이러한 활동을 구현하려면 상당한 노력이 필요할 수 있지만 두 가지 방법 모두 워크로드가 견딜 수 있도록 설계한 장애 모드에 대해 복원력이 있다는 확신을 심어줍니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

3단계: 평가 및 테스트

5단계: 대응 및 학습