PERF05-BP05 자동화를 사용하여 성능 관련 문제 사전 해결
KPI(핵심 성능 지표)를 모니터링 및 경보 시스템과 함께 사용하여 성능 관련 문제를 선제적으로 해결합니다.
일반적인 안티 패턴:
-
워크로드에 대한 운영 변경을 수행할 수 있는 기능을 운영 직원에게만 허용합니다.
-
사전 조치 없이 모든 경보를 운영 팀으로 필터링합니다.
이 모범 사례 확립의 이점: 경보 작업을 사전에 해결하면 지원 직원이 자동으로 실행할 수 없는 항목에 집중할 수 있습니다. 이를 통해 운영 담당자는 모든 알람을 처리하는 데 부담을 느끼지 않고 중요한 경보에만 집중할 수 있습니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 낮음
구현 가이드
경보를 사용하여 가능한 경우 문제를 해결하는 자동화 작업을 트리거합니다. 자동 대응이 불가능한 경우 대응을 수행할 수 있는 담당자에게 경보를 에스컬레이션합니다. 예를 들어 필요한 핵심 성과 지표(KPI) 값을 예측하고 해당 값이 특정 임계값을 초과하는 경우 경보를 생성할 수 있는 시스템이나, KPI가 필요한 값의 범위를 벗어나는 경우 배포를 자동으로 중지하거나 롤백할 수 있는 도구가 있습니다.
워크로드가 실행 중일 때 성능을 확인할 수 있는 프로세스를 구현합니다. 워크로드가 최적의 상태로 작동하고 있는지를 확인할 수 있도록 성능 기대치 관련 기준을 설정하고 모니터링 대시보드를 구축합니다.
구현 단계
-
자동으로 해결할 수 있는 성능 문제를 식별하고 이해합니다. 다음과 같은 AWS 모니터링 솔루션 사용: Amazon CloudWatch 또는 AWS X-Ray를를 사용하면 문제의 근본 원인을 더 잘 이해하는 데 도움이 됩니다.
-
문제를 자동으로 해결하는 데 사용할 수 있는 단계별 해결 계획 및 프로세스를 만듭니다.
-
자동으로 문제 해결 프로세스를 시작하도록 트리거를 구성합니다. 예를 들어 CPU 사용률이 특정 임계값에 도달하면 인스턴스를 자동으로 다시 시작하도록 트리거를 정의할 수 있습니다.
-
AWS 서비스 및 기술을 사용하여 문제 해결 프로세스를 자동화합니다. 예: AWS Systems Manager Automation 문제 해결 프로세스를 자동화할 수 있는 안전하고 확장 가능한 방법을 제공합니다.
-
사전 프로덕션 환경에서 자동화된 수정 프로세스를 테스트합니다.
-
테스트 후 프로덕션 환경에서 수정 프로세스를 구현하고 지속적으로 모니터링하여 개선이 필요한 부분을 파악합니다.
리소스
관련 문서:
관련 동영상:
관련 예시: