PERF05-BP07 정기적으로 지표 검토
정기적인 유지 관리의 일환으로 또는 이벤트나 인시던트 대응 과정에서 수집된 지표를 검토합니다. 이러한 검토를 수행하면 문제를 해결하는 데 반드시 필요했던 지표와 문제를 식별, 해결 또는 방지하는 데 도움이 되었던 지표(추적한 경우)를 추가로 파악할 수 있습니다.
일반적인 안티 패턴:
-
지표가 장기간 경보 상태로 유지되는 것을 허용합니다.
-
자동화 시스템으로 수행할 수 없는 경보를 생성합니다.
이 모범 사례 확립의 이점: 수집 중인 지표를 지속적으로 검토하여 문제가 올바르게 식별, 해결 또는 방지되는지 확인합니다. 지표를 장기간 경보 상태로 유지할 경우에도 지표가 부실해질 수 있습니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 중간
구현 가이드
지표 수집 및 모니터링을 지속적으로 개선합니다. 인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 방법을 사용하여 수집한 지표의 품질을 개선하면 사후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다.
인시던트나 이벤트 대응의 일환으로 문제를 해결하는 데 도움이 되었던 지표와 현재는 추적 중이지 않지만 도움이 되었을 수 있는 지표를 평가합니다. 이 평가 결과를 토대로 하여 수집한 지표의 품질을 개선하면 이후 인시던트를 예방하거나 더 빨리 해결할 수 있습니다.
구현 단계
-
지표 정의: 응답 시간 및 리소스 사용률과 같은 지표 등 워크로드 목표에 맞춰 모니터링할 중요한 성과 지표를 정의합니다.
-
기준선 설정: 각 지표에 대한 기준과 원하는 값을 설정합니다. 기준은 편차 또는 이상을 식별하기 위한 기준을 제공해야 합니다.
-
주기 설정: 주기(예: 주별 또는 월별)를 설정하여 중요 지표를 검토합니다.
-
성능 문제 식별: 각 검토 과정에서 추세와 기준값과의 편차를 평가합니다. 성능 병목 현상 또는 이상 징후가 있는지 찾아봅니다. 식별된 문제의 경우 심층적인 근본 원인 분석을 수행하여 문제의 주요 원인을 파악합니다.
-
수정 조치 식별: 분석을 사용하여 수정 조치를 식별합니다. 여기에는 파라미터 조정, 버그 수정, 리소스 규모 조정이 포함될 수 있습니다.
-
조사 결과 문서화: 식별된 문제, 근본 원인 및 시정 조치를 포함하여 조사 결과를 문서화합니다.
-
반복 및 개선: 지표 검토 프로세스를 지속적으로 평가하고 개선합니다. 이전 검토에서 배운 내용을 활용하여 시간이 지남에 따라 프로세스를 개선합니다.
리소스
관련 문서:
관련 비디오:
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWS re:Invent 2023 - Building an effective observability strategy
-
AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS
-
AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
관련 예제: