이벤트에 대한 대응

계획된 운영 이벤트(예: 판매 프로모션, 배포 및 장애 테스트)와 계획되지 않은 운영 이벤트(예: 사용률 및 구성 요소 장애의 급증)를 모두 예상해야 합니다. 알림에 대응할 때는 일관된 결과가 제공되도록 기존 런북과 플레이북을 사용해야 합니다. 대응과 에스컬레이션을 담당하는 팀 혹은 역할이 정의된 알림을 처리해야 합니다. 또한 시스템 구성 요소가 업무에 주는 영향을 확인하고, 해당 정보를 활용해 필요시의 작업 대상을 지정할 수 있습니다. 이벤트 후에는 근본 원인 분석(RCA)을 수행해야 하며 장애 재발을 방지하거나 해결 방법을 문서로 작성해야 합니다.

AWS에서는 워크로드와 운영의 모든 측면을 코드로 지원하는 도구가 제공되므로 이벤트에 손쉽게 대응할 수 있습니다. 이러한 도구를 사용하면 운영 이벤트 관련 대응을 스크립트로 작성할 수 있으며, 모니터링 데이터에 대한 응답으로 스크립트 실행을 시작할 수 있습니다.

AWS에서는 장애가 발생한 구성 요소의 복구를 시도하는 대신 알려진 정상 버전으로 교체함으로써 복구 시간을 줄일 수 있습니다. 그런 후에는 장애가 발생한 대역 외 리소스에 대한 분석을 수행할 수 있습니다.

모범 사례

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

OPS09-BP03 운영 지표 검토 및 개선 우선순위 지정

OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용