이벤트에 대한 대응 - 운영 우수성 원칙

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

이벤트에 대한 대응

계획된 운영 이벤트(예: 판매 프로모션, 배포 및 장애 테스트)와 계획되지 않은 운영 이벤트(예: 사용률 및 구성 요소 장애의 급증)를 모두 예상해야 합니다. 알림에 대응할 때는 일관된 결과가 제공되도록 기존 런북과 플레이북을 사용해야 합니다. 대응과 에스컬레이션을 담당하는 팀 혹은 역할이 정의된 알림을 처리해야 합니다. 또한 시스템 구성 요소가 업무에 주는 영향을 확인하고, 해당 정보를 활용해 필요시의 작업 대상을 지정할 수 있습니다. 이벤트 후 근본 원인 분석(RCA)을 수행한 다음 실패 재발이나 문서 해결 방법을 방지해야 합니다.

AWS 는 워크로드 및 작업의 모든 측면을 지원하는 도구를 코드로 제공하여 이벤트 응답을 간소화합니다. 이러한 도구를 사용하면 운영 이벤트 관련 대응을 스크립트로 작성할 수 있으며, 모니터링 데이터에 대한 응답으로 스크립트 실행을 시작할 수 있습니다.

에서는 실패한 구성 요소를 복구하려는 대신 알려진 양호한 버전으로 교체하여 복구 시간을 개선할 AWS수 있습니다. 그런 후에는 장애가 발생한 대역 외 리소스에 대한 분석을 수행할 수 있습니다.