이벤트 대응 - 운영 우수성 원칙

이벤트 대응

계획된 운영 이벤트(예: 판매 프로모션, 배포 및 장애 테스트)와 계획되지 않은 운영 이벤트(예: 사용률 및 구성 요소 장애의 급증)를 모두 예상해야 합니다. 알림에 대응할 때는 일관된 결과가 제공되도록 기존 런북과 플레이북을 사용해야 합니다. 대응과 에스컬레이션을 담당하는 팀이나 역할이 정의된 알림을 소유해야 합니다. 또한 시스템 구성 요소가 업무에 주는 영향을 확인하고, 해당 정보를 활용해 필요시의 작업 대상을 지정할 수 있습니다. 이벤트 후에는 근본 원인 분석(RCA)을 수행해야 하며 장애 재발을 방지하거나 해결 방법을 문서로 작성해야 합니다.

AWS에서는 워크로드와 운영의 모든 측면을 코드로 지원하는 도구가 제공되므로 이벤트에 손쉽게 대응할 수 있습니다. 이러한 도구를 사용하면 운영 이벤트 관련 대응을 스크립트로 작성할 수 있으며, 모니터링 데이터에 대한 응답으로 스크립트 실행을 트리거할 수 있습니다.

AWS에서는 장애가 발생한 구성 요소의 복구를 시도하는 대신 알려진 정상 버전으로 교체함으로써 복구 시간을 줄일 수 있습니다. 그런 후에는 장애가 발생한 대역 외 리소스에 대한 분석을 수행할 수 있습니다.