OPS10-BP02 알림별 프로세스 마련
효과적이고 효율적인 인시던트 관리를 위해서는 시스템의 각 알림에 대해 명확하고 정의된 프로세스를 마련하는 것이 필수적입니다. 이렇게 하면 모든 알림이 구체적이고 실행 가능한 대응으로 이어져 운영의 신뢰성과 대응력이 향상됩니다.
원하는 성과: 모든 알림은 구체적이고 잘 정의된 대응 계획을 개시합니다. 가능한 경우 명확한 소유권과 정의된 에스컬레이션 경로를 통해 대응이 자동화됩니다. 알림은 모든 운영자가 일관되고 효과적으로 대응할 수 있도록 최신 지식 베이스에 연결됩니다. 대응이 전반적으로 빠르고 균일하여 운영 효율성과 신뢰성이 향상됩니다.
일반적인 안티 패턴:
-
알림에는 사전 정의된 대응 프로세스가 없으므로 임시 조치 및 문제 해결이 지연될 수 있습니다.
-
알림 오버로드로 인해 중요한 알림이 간과됩니다.
-
명확한 소유권과 책임이 없기 때문에 알림이 일관되지 않은 방식으로 처리됩니다.
이 모범 사례 확립의 이점:
-
실행 가능한 알림만 발생시켜 알림 피로를 줄입니다.
-
운영 문제의 평균 해결 시간(MTTR)을 단축합니다.
-
평균 조사 시간(MTTI)이 단축되어 MTTR을 단축합니다.
-
운영 대응 규모를 조정할 수 있는 기능을 개선합니다.
-
운영 이벤트 처리의 일관성과 신뢰성이 향상됩니다.
예를 들어 애플리케이션 경보, 운영 문제 및 계획된 수명 주기 이벤트(클러스터가 자동 업데이트되기 전에 Amazon EKS 버전 업데이트 등)를 포함하여 중요한 계정에 대한 AWS Health 이벤트에 대해 정의된 프로세스가 있으며 팀이 이러한 이벤트를 적극적으로 모니터링하고, 소통하고, 대응할 수 있는 역량을 제공합니다. 이러한 작업을 통해 AWS 측 변경으로 인한 서비스 중단을 방지하거나 예상치 못한 문제가 발생할 때 더 빠르게 완화할 수 있습니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음
구현 가이드
알림별 프로세스를 갖추려면 각 알림에 대한 명확한 대응 계획을 마련하고, 가능한 경우 대응을 자동화하며, 운영 피드백과 변화하는 요구 사항을 기반으로 이러한 프로세스를 지속적으로 개선해야 합니다.
구현 단계
다음 다이어그램은 AWS Systems Manager Incident Manager
-
복합 경보 사용: CloudWatch에서 복합 경보를 생성하여 경보를 그룹화하고 노이즈를 줄이며 보다 의미 있는 대응이 가능하게 합니다.
-
Amazon EventBridge 규칙을 사용하여 AWS Health 이벤트를 모니터링: AWS Health API와 프로그래밍 방식으로 통합하여 AWS Health 이벤트를 수신할 때 작업을 자동화합니다. 이러한 작업은 계획된 모든 수명 주기 이벤트 메시지를 채팅 인터페이스로 보내는 것과 같은 일반적인 작업이거나 IT 서비스 관리 도구에서 워크플로를 시작하는 것과 같은 구체적인 작업일 수 있습니다.
-
Amazon CloudWatch 경보를 Incident Manager와 통합: AWS Systems Manager Incident Manager에서 인시던트를 자동으로 생성하도록 CloudWatch 경보를 구성합니다.
-
Amazon EventBridge를 Incident Manager와 통합: EventBridge 규칙을 만들어 정의된 대응 계획에 따라 이벤트에 대응하고 인시던트를 생성합니다.
-
Incident Manager에서 인시던트 준비:
-
알림 유형별 세부 대응 계획을 Incident Manager에서 수립합니다.
-
Incident Manager의 대응 계획에 연결된 AWS Chatbot을 통해 채팅 채널을 설정하여 Slack, Microsoft Teams 및 Amazon Chime과 같은 여러 플랫폼에서 인시던트 발생 시 실시간 커뮤니케이션을 용이하게 합니다.
-
Incident Manager 내에서 Systems Manager Automation 런북을 통합하여 인시던트에 대한 자동 대응을 유도합니다.
-
리소스
관련 모범 사례:
관련 문서:
관련 비디오:
관련 예제: