PERF05-BP05 자동화를 사용하여 성능 관련 문제 사전 해결
핵심 성과 지표(KPI)를 모니터링 및 경보 시스템과 함께 사용하여 성능 관련 문제를 선제적으로 해결합니다.
일반적인 안티 패턴:
-
워크로드에 대한 운영 변경을 수행할 수 있는 기능을 운영 직원에게만 허용합니다.
-
사전 조치 없이 모든 경보를 운영 팀으로 필터링합니다.
이 모범 사례 확립의 이점: 경보 작업을 사전에 해결하면 지원 직원이 자동으로 실행할 수 없는 항목에 집중할 수 있습니다. 이를 통해 운영 담당자는 모든 알람을 처리하는 데 부담을 느끼지 않고 중요한 경보에만 집중할 수 있습니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 낮음
구현 가이드
경보를 사용하여 가능한 경우 문제를 해결하는 자동화 작업을 트리거합니다. 자동 대응이 불가능한 경우 대응을 수행할 수 있는 담당자에게 경보를 에스컬레이션합니다. 예를 들어 필요한 핵심 성과 지표(KPI) 값을 예측하고 해당 값이 특정 임곗값을 초과하는 경우 경보를 생성할 수 있는 시스템이나, KPI가 필요한 값의 범위를 벗어나는 경우 배포를 자동으로 중지하거나 롤백할 수 있는 도구가 있습니다.
워크로드가 실행 중일 때 성능을 확인할 수 있는 프로세스를 구현합니다. 워크로드가 최적의 상태로 작동하고 있는지를 확인할 수 있도록 성능 기대치 관련 기준을 설정하고 모니터링 대시보드를 구축합니다.
구현 단계
-
수정 워크플로 식별: 자동으로 해결할 수 있는 성능 문제를 식별하고 이해합니다. Amazon CloudWatch 또는 AWS X-Ray와 같은 AWS 모니터링 솔루션을 사용하여 문제의 근본 원인을 더 잘 파악할 수 있습니다.
-
자동화 프로세스 정의: 문제를 자동으로 해결하는 데 사용할 수 있는 단계별 수정 프로세스를 만듭니다.
-
시작 이벤트 구성: 수정 프로세스를 자동으로 시작하도록 이벤트를 구성합니다. 예를 들어 CPU 사용률이 특정 임곗값에 도달하면 인스턴스를 자동으로 다시 시작하도록 트리거를 정의할 수 있습니다.
-
수정 자동화: AWS 서비스 및 기술을 사용하여 수정 프로세스를 자동화합니다. 예를 들어, AWS Systems Manager Automation에서는 수정 프로세스를 자동화할 수 있는 안전하고 확장 가능한 방법을 제공합니다. 문제를 성공적으로 해결하지 못한 경우 자체 복구 논리를 사용하여 변경 내용을 되돌립니다.
-
워크플로 테스트: 사전 프로덕션 환경에서 자동화된 수정 프로세스를 테스트합니다.
-
워크플로우 구현: 프로덕션 환경에서 자동화된 문제 해결을 구현합니다.
-
플레이북 개발: 시작 이벤트, 수정 논리 및 실행된 조치를 포함하여 수정 계획의 단계를 설명하는 플레이북을 개발하고 문서화합니다. 이해관계자가 자동화된 수정 이벤트에 효과적으로 대응할 수 있도록 교육해야 합니다.
-
검토 및 개선: 자동화된 수정 워크플로의 효과를 정기적으로 평가합니다. 필요한 경우 시작 이벤트 및 수정 논리를 조정합니다.
리소스
관련 문서:
관련 비디오:
-
AWS re:Invent 2023 - Strategies for automated scaling, remediation, and smart self-healing
-
AWS re:Invent 2023 - [LAUNCH] Application monitoring for modern workloads
-
AWS re:Invent 2021 - Intelligently automating cloud operations
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Invent 2022 - Automating patch management and compliance using AWS
-
AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
-
AWS re:Invent 2021 -{New Launch} Automatically detect and resolve issues with Amazon DevOps Guru
관련 예제: