OPS08-BP04 실행 가능한 알림 생성 - AWS Well-Architected Framework

OPS08-BP04 실행 가능한 알림 생성

애플리케이션 동작의 편차를 즉시 감지하고 이에 대응하는 것이 중요합니다. 특히 중요한 것은 핵심 성과 지표(KPI)를 기반으로 한 결과가 위험에 처하거나 예상치 못한 이상 현상이 발생할 때를 인식하는 것입니다. KPI에 기반한 알림을 통해 수신되는 신호가 비즈니스 또는 운영상의 영향과 직접 연계되도록 할 수 있습니다. 실행 가능한 경고에 대한 이러한 접근 방식은 사전 대응을 촉진하고 시스템 성능 및 안정성을 유지하는 데 도움이 됩니다.

원하는 결과: 특히 KPI 결과가 위험할 때 잠재적 문제를 신속하게 식별하고 완화할 수 있도록 시기적절하고 실행 가능한 알림을 받을 수 있습니다.

일반적인 안티 패턴:

  • 중요하지 않은 경고를 너무 많이 설정하면 경고로 인한 피로가 발생합니다.

  • KPI에 따라 알림의 우선 순위를 정하지 않아 문제가 비즈니스에 미치는 영향을 파악하기 어렵습니다.

  • 근본 원인 해결을 소홀히 하여 동일한 문제에 대해 반복적인 경고가 발생합니다.

이 모범 사례 확립의 이점:

  • 실행 가능하고 관련성이 높은 경고에 집중하여 경고 피로를 줄였습니다.

  • 사전 예방적 문제 감지 및 완화를 통해 시스템 가동 시간 및 안정성을 개선했습니다.

  • 널리 사용되는 경고 및 커뮤니케이션 도구와 통합하여 팀 협업을 강화하고 문제를 더 빠르게 해결합니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

효과적인 알림 메커니즘을 만들려면 KPI를 기반으로 한 결과가 위험에 처하거나 이상 징후가 감지될 때 플래그를 표시하는 지표, 로그 및 추적 데이터를 사용하는 것이 중요합니다.

구현 단계

  1. 핵심 성능 지표(KPI)를 정의합니다. 애플리케이션의 KPI를 확인합니다. 알림을 이러한 KPI와 연계하여 비즈니스에 미치는 영향을 정확하게 반영해야 합니다.

  2. 이상 탐지 구현:

    • AWS Cost Anomaly Detection 사용: 비정상적인 패턴을 자동으로 감지하도록 AWS Cost Anomaly Detection를 설정하여 실제 이상 징후에 대해서만 알림이 생성되도록 합니다.

    • X-Ray 인사이트 사용:

      1. 추적 데이터에서 이상 징후를 감지하도록 X-Ray Insights를 설정하세요.

      2. 감지된 문제에 대해 알림을 받도록 X-Ray Insights에 대한 알림을 구성합니다.

    • DevOps Guru와 통합:

      1. 기존 데이터로 운영 이상 징후를 감지하는 머신 러닝 기능의 Amazon DevOps Guru를 활용하세요.

      2. 다음 알림 설정인 DevOps Guru로 이동하여 이상 징후 알림을 설정합니다.

  3. 실행 가능한 알림 구현: 즉각적인 조치를 위한 적절한 정보를 제공하는 알림을 설계하세요.

  4. 알람 피로 감소: 중요하지 않은 알림을 최소화합니다. 대수롭지 않은 알림으로 팀에 부담을 주면 중요한 문제를 감독하고 알림 메커니즘의 전반적인 효율성을 떨어뜨릴 수 있습니다.

  5. 복합 알람 설정: 또한 Amazon CloudWatch 복합 알람을 사용하여 여러 알람을 통합할 수 있습니다.

  6. 경고 도구와 통합: 다음과 같은 도구 통합 Ops GeniePagerDuty.

  7. 참여 AWS Chatbot AWS Chatbot과 통합하여Chime, Microsoft Teams, Slack에 알림을 전달합니다.

  8. 로그 기반 경고: 또한 로그 지표 필터를 CloudWatch에서 사용하여 특정 로그 이벤트를 기반으로 경보를 생성합니다.

  9. 검토 및 반복: 경고 구성을 정기적으로 재검토하고 수정하세요.

구현 계획의 작업 수준: 보통.

리소스

관련 모범 사례:

관련 문서:

관련 동영상:

관련 예시: