OPS08-BP01 워크로드 지표 분석
애플리케이션 텔레메트리를 구현한 후 수집된 지표를 정기적으로 분석합니다. 지연 시간, 요청, 오류, 용량(또는 할당량)은 시스템 성능에 대한 통찰력을 제공하지만 비즈니스 성과 지표 검토의 우선 순위를 정하는 것이 중요합니다. 이를 통해 비즈니스 목표에 부합하는 데이터 기반 의사 결정을 내릴 수 있습니다.
원하는 결과: 워크로드 성능에 대한 정확한 통찰력을 통해 데이터에 기반한 의사 결정을 내리고 비즈니스 목표에 부합하도록 합니다.
일반적인 안티 패턴:
-
지표가 비즈니스 성과에 미치는 영향을 고려하지 않고 개별적으로 지표를 분석합니다.
-
기술 지표에 지나치게 의존하고 비즈니스 지표는 배제합니다.
-
지표를 자주 검토하지 않아 실시간 의사 결정 기회를 놓치고 있습니다.
이 모범 사례 확립의 이점:
-
기술 성과와 비즈니스 성과 간의 상관 관계에 대해 더 잘 이해합니다.
-
실시간 데이터를 기반으로 의사 결정 프로세스를 개선합니다.
-
비즈니스 성과에 영향을 미치기 전에 문제를 사전에 식별하고 완화합니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 보통
구현 가이드
Amazon CloudWatch 같은 도구를 활용하여 지표 분석을 수행합니다. AWS Cost Anomaly Detection 및 Amazon DevOps Guru 같은AWS 서비스는 특히 정적 임계값을 알 수 없거나 행동 패턴이 이상 탐지에 더 적합한 경우 이상을 탐지하는 데 사용할 수 있습니다.
구현 단계
-
분석 및 검토: 워크로드 지표를 정기적으로 검토하고 해석하세요.
-
순전히 기술적인 지표보다 비즈니스 성과 지표를 우선시하세요.
-
데이터의 급증, 하락 또는 패턴의 중요성을 이해하세요.
-
-
활용Amazon CloudWatch: 중앙 집중식 보기 및 심층 분석에 Amazon CloudWatch을 사용합니다.
-
지표를 시각화하고 시간 경과에 따라 비교하도록 CloudWatch 대시보드를 구성하세요.
-
또한 CloudWatch의 백분위수를 사용하면
지표 분포를 명확하게 파악하여 SLA를 정의하고 이상치를 이해하는 데 도움이 될 수 있습니다. -
애플리케이션 레이어를 통해 트래픽을 추적하고 구성 요소와 종속 요소 간 지연 시간을 파악할 수 있도록 AWS Cost Anomaly Detection 정적 임계값에 의존하지 않고 비정상적 패턴을 식별할 수 있습니다.
-
호출 오류율, 대기 시간에 대한 서비스 수준 목표, 대기 시간 이상값에 대한 CloudWatch계정 간 관찰 가능성 리전 내 여러 계정에 걸쳐 있는 애플리케이션을 모니터링하고 문제를 해결합니다.
-
또한 CloudWatch 지표 인사이트를 사용하여 계정 및 리전 전반의 지표 데이터를 쿼리하고 분석하여 추세와 이상 현상을 식별합니다.
-
CloudWatch 지표 수식을 적용하여 지표를 변환, 집계 또는 계산을 수행하여 심층적인 통찰력을 확보할 수 있습니다.
-
-
Amazon DevOps Guru 채택: 기계 학습으로 강화된 이상 탐지 기능 Amazon DevOps Guru을 통합하여
서버리스 애플리케이션의 운영 문제의 초기 징후를 식별하고 고객에게 영향을 미치기 전에 문제를 해결하세요. -
인사이트를 기반으로 최적화: 지표 분석을 기반으로 정보에 입각한 결정을 내려 워크로드를 조정하고 개선하세요.
구현 계획의 작업 수준: 보통
리소스
관련 모범 사례:
관련 문서:
관련 동영상:
관련 예시: