PERF05-BP07 정기적으로 지표 검토 - AWS Well-Architected Framework

PERF05-BP07 정기적으로 지표 검토

주기적인 유지 관리의 일환으로 또는 이벤트나 인시던트 대응 과정에서 수집된 지표를 검토합니다. 이러한 검토를 수행하면 문제를 해결하는 데 반드시 필요했던 지표와 문제를 식별/해결/방지하는 데 도움이 되었던 지표(추적한 경우)를 추가로 파악할 수 있습니다.

일반적인 안티 패턴:

  • 지표가 장기간 경보 상태로 유지되는 것을 허용합니다.

  • 자동화 시스템으로 수행할 수 없는 경보를 생성합니다.

이 모범 사례 확립의 이점: 수집 중인 지표를 지속적으로 검토하여 문제가 올바르게 식별, 해결 또는 방지되는지 확인합니다. 지표를 장기간 경보 상태로 유지할 경우에도 지표가 부실해질 수 있습니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 보통

구현 가이드

지표 수집 및 모니터링을 지속적으로 개선합니다. 인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와, 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 방법을 사용하여 수집한 지표의 품질을 개선하면 사후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다.

인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와, 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 평가 결과를 토대로 하여 수집한 지표의 품질을 개선하면 이후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다.

구현 단계

  1. 워크로드 목표에 맞게 모니터링할 중요한 성능 지표를 정의합니다.

  2. 각 지표에 대한 기준과 원하는 값을 설정합니다.

  3. 주기(예: 주별 또는 월별)를 설정하여 중요 지표를 검토합니다.

  4. 각 검토 과정에서 추세와 기준값과의 편차를 평가합니다. 성능 병목 현상 또는 이상 징후가 있는지 찾아봅니다.

  5. 식별된 문제의 경우 심층적인 근본 원인 분석을 수행하여 문제의 주요 원인을 파악합니다.

  6. 발견한 내용을 문서화하고 전략을 사용하여 식별된 문제 및 병목 현상을 해결합니다.

  7. 지표 검토 프로세스를 지속적으로 평가하고 개선합니다.

리소스

관련 문서:

관련 동영상:

관련 예시: