REL11-BP06 이벤트가 가용성에 영향을 미치는 경우 알림 전송 - 안정성 원칙

REL11-BP06 이벤트가 가용성에 영향을 미치는 경우 알림 전송

임계값 위반이 감지되면 문제를 일으킨 이벤트가 자동으로 해결된 경우에도 알림이 전송됩니다.

자동 복구를 사용하면 워크로드의 신뢰성을 유지할 수 있습니다. 그러나 자동 복구로 인해 해결해야 할 근본적인 문제가 가려질 수도 있습니다. 적절한 모니터링 및 이벤트를 구현하면 자동 복구로 해결된 문제를 포함한 문제의 패턴을 감지하여 근본 원인 문제를 해결할 수 있습니다.

복원력이 뛰어난 시스템은 성능 저하 이벤트가 해당 팀에 즉시 전달되도록 설계되었습니다. 이러한 알림은 하나 이상의 통신 채널을 통해 전송되어야 합니다.

원하는 결과: 오류율, 지연 시간 또는 기타 중요한 핵심 성과 지표(KPI)와 같은 임계값을 위반하면 운영 팀에 즉시 알림이 전송되므로 이러한 문제를 최대한 빨리 해결하고 사용자에게 미치는 영향을 피하거나 최소화할 수 있습니다.

일반적인 안티 패턴:

  • 너무 많은 경보 전송

  • 실행 불가능한 경보 전송

  • 경보 임계값을 너무 높게(민감도 높음) 또는 너무 낮게(민감도 낮음) 설정

  • 외부 종속성에 대한 경보를 보내지 않음

  • 고려하지 않음 고려해야 함 모니터링 및 경보를 설계할 때

  • 복구 자동화를 수행하지만 해당 팀에 복구가 필요하다는 사실을 알리지 않음

이 모범 사례 확립의 이점: 운영 팀과 비즈니스 팀은 복구 알림을 통해 서비스 저하를 인지하고 즉시 대응하여 평균 탐지 시간(MTTD)과 평균 복구 시간(MTTR)을 모두 최소화할 수 있습니다. 또한 복구 이벤트에 대한 알림이 전송되면 어쩌다 발생하는 문제도 지나치지 않을 수 있습니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 보통. 적절한 모니터링 및 이벤트 알림 메커니즘을 구현하지 않으면 자동 복구로 해결된 문제를 포함하여 문제의 패턴을 감지하지 못할 수 있습니다. 팀은 사용자가 고객 서비스에 문의할 때나 우연히만 시스템 성능 저하 사실을 인지하게 됩니다.

구현 가이드

모니터링 전략을 정의할 때 경보가 울리는 것은 흔한 이벤트입니다. 이 이벤트에는 경보의 식별자, 즉 경보 상태(예: 경보 중 또는 확인) 및 유발 원인에 대한 세부 정보가 포함되어 있을 것입니다. 대부분의 경우 경보 이벤트가 감지되고 이메일 알림이 전송되어야 합니다. 이것이 경보에 대한 작업의 예입니다. 경보 알림은 적절한 사용자에게 문제가 있음을 알려주기 때문에 관찰성에서 매우 중요합니다. 그러나 관찰성 솔루션에서 이벤트에 대한 작업이 성숙해지면 사람의 개입 없이 자동으로 문제를 해결할 수 있습니다.

KPI 모니터링 경보가 설정되면 임계값을 초과할 경우 해당 팀에 알림이 전송되어야 합니다. 이러한 알림은 성능 저하를 해결하기 위한 자동화된 프로세스를 트리거하는 데에도 사용될 수 있습니다.

보다 복잡한 임계값 모니터링의 경우 복합 경보를 고려해야 합니다. 복합 경보는 여러 KPI 모니터링 경보를 사용하여 운영 비즈니스 로직에 기반한 알림을 생성합니다. 이메일을 보내거나 Amazon SNS 통합 또는 Amazon EventBridge를 사용하여 서드파티 인시던트 추적 시스템에 인시던트를 기록하도록 CloudWatch Alarms를 구성할 수 있습니다.

구현 단계

워크로드 모니터링 방식에 따라 다음과 같은 다양한 유형의 경보를 생성합니다.

  • 애플리케이션 경보는 워크로드의 일부가 제대로 작동하지 않는 경우를 감지하는 데 사용됩니다.

  • 인프라 경보 리소스의 규모 조정 시점을 알려줍니다. 경보를 사용하면 대시보드에 경보를 시각적으로 표시하고, Amazon SNS 또는 이메일을 통해 알림을 전송하며, Auto Scaling을 통해 워크로드의 리소스 규모를 확장하거나 축소할 수 있습니다.

  • 간단한 정적 경보 지정된 평가 기간 중 지표가 정적 임계값을 위반하는 시점을 모니터링하기 위해 생성할 수 있습니다.

  • 복합 경보 여러 소스의 복잡한 경보를 설명할 수 있습니다.

  • 경보가 생성되면 적절한 알림 이벤트를 생성합니다. 직접 Amazon SNS API를 호출하여 알림을 전송하고 문제 해결 또는 커뮤니케이션을 위한 자동화를 연결할 수 있습니다.

  • 성능 저하가 있을 수 있는 AWS 리소스에 대한 가시성을 모니터링할 수 있도록 Amazon Health Aware 모니터링을 위한 통합을 생성합니다. 비즈니스 필수 워크로드의 경우 이 솔루션을 통해 AWS 서비스에 대한 선제적인 실시간 알림에 액세스할 수 있습니다.

리소스

관련 Well-Architected 모범 사례:

관련 문서:

관련 도구: