OPS10-BP02 알림별 프로세스 마련 - 운영 우수성 원칙

OPS10-BP02 알림별 프로세스 마련

효과적이고 효율적인 인시던트 관리를 위해서는 시스템의 각 알림에 대해 명확하고 정의된 프로세스를 마련하는 것이 필수적입니다. 이렇게 하면 모든 알림이 구체적이고 실행 가능한 대응으로 이어져 운영의 신뢰성과 대응력이 향상됩니다.

원하는 성과: 모든 알림은 구체적이고 잘 정의된 대응 계획을 개시합니다. 가능한 경우 명확한 소유권과 정의된 에스컬레이션 경로를 통해 대응이 자동화됩니다. 알림은 모든 운영자가 일관되고 효과적으로 대응할 수 있도록 최신 지식 베이스에 연결됩니다. 대응이 전반적으로 빠르고 균일하여 운영 효율성과 신뢰성이 향상됩니다.

일반적인 안티 패턴:

  • 알림에는 사전 정의된 대응 프로세스가 없으므로 임시 조치 및 문제 해결이 지연될 수 있습니다.

  • 알림 오버로드로 인해 중요한 알림이 간과됩니다.

  • 명확한 소유권과 책임이 없기 때문에 알림이 일관되지 않은 방식으로 처리됩니다.

이 모범 사례 확립의 이점:

  • 실행 가능한 알림만 발생시켜 알림 피로를 줄입니다.

  • 운영 문제의 평균 해결 시간(MTTR)을 단축합니다.

  • 평균 조사 시간(MTTI)이 단축되어 MTTR을 단축합니다.

  • 운영 대응 규모를 조정할 수 있는 기능을 개선합니다.

  • 운영 이벤트 처리의 일관성과 신뢰성이 향상됩니다.

예를 들어 애플리케이션 경보, 운영 문제 및 계획된 수명 주기 이벤트(클러스터가 자동 업데이트되기 전에 Amazon EKS 버전 업데이트 등)를 포함하여 중요한 계정에 대한 AWS Health 이벤트에 대해 정의된 프로세스가 있으며 팀이 이러한 이벤트를 적극적으로 모니터링하고, 소통하고, 대응할 수 있는 역량을 제공합니다. 이러한 작업을 통해 AWS 측 변경으로 인한 서비스 중단을 방지하거나 예상치 못한 문제가 발생할 때 더 빠르게 완화할 수 있습니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

알림별 프로세스를 갖추려면 각 알림에 대한 명확한 대응 계획을 마련하고, 가능한 경우 대응을 자동화하며, 운영 피드백과 변화하는 요구 사항을 기반으로 이러한 프로세스를 지속적으로 개선해야 합니다.

구현 단계

다음 다이어그램은 AWS Systems Manager Incident Manager 내 인시던트 관리 워크플로를 보여줍니다. 이는 Amazon CloudWatch 또는 Amazon EventBridge의 특정 이벤트에 대한 대응으로 인시던트를 자동으로 생성하여 운영 문제에 신속하게 대응할 수 있도록 설계되었습니다. 인시던트가 자동 또는 수동으로 생성되면 Incident Manager에서 인시던트 관리를 중앙 집중화하고 관련 AWS 리소스 정보를 구성하며 사전 정의된 대응 계획을 개시합니다. 여기에는 즉각적인 조치를 위한 Systems Manager Automation 런북 실행과 관련 작업 및 분석을 추적하기 위해 OpsCenter에 상위 운영 작업 항목을 생성하는 것도 포함됩니다. 이 간소화된 프로세스는 AWS 환경 전반에서 인시던트 대응을 가속화하고 조정합니다.

Incident Manager의 운영 방식을 나타내는 플로차트 - AWS Chatbot, 에스컬레이션 계획 및 연락처, 런북이 대응 계획으로 전달되어 인시던트 및 분석으로 이어집니다. Amazon CloudWatch는 대응 계획에도 적용됩니다.

  1. 복합 경보 사용: CloudWatch에서 복합 경보를 생성하여 경보를 그룹화하고 노이즈를 줄이며 보다 의미 있는 대응이 가능하게 합니다.

  2. Amazon EventBridge 규칙을 사용하여 AWS Health 이벤트를 모니터링: AWS Health API와 프로그래밍 방식으로 통합하여 AWS Health 이벤트를 수신할 때 작업을 자동화합니다. 이러한 작업은 계획된 모든 수명 주기 이벤트 메시지를 채팅 인터페이스로 보내는 것과 같은 일반적인 작업이거나 IT 서비스 관리 도구에서 워크플로를 시작하는 것과 같은 구체적인 작업일 수 있습니다.

  3. Amazon CloudWatch 경보를 Incident Manager와 통합: AWS Systems Manager Incident Manager에서 인시던트를 자동으로 생성하도록 CloudWatch 경보를 구성합니다.

  4. Amazon EventBridge를 Incident Manager와 통합: EventBridge 규칙을 만들어 정의된 대응 계획에 따라 이벤트에 대응하고 인시던트를 생성합니다.

  5. Incident Manager에서 인시던트 준비:

    • 알림 유형별 세부 대응 계획을 Incident Manager에서 수립합니다.

    • Incident Manager의 대응 계획에 연결된 AWS Chatbot을 통해 채팅 채널을 설정하여 Slack, Microsoft Teams 및 Amazon Chime과 같은 여러 플랫폼에서 인시던트 발생 시 실시간 커뮤니케이션을 용이하게 합니다.

    • Incident Manager 내에서 Systems Manager Automation 런북을 통합하여 인시던트에 대한 자동 대응을 유도합니다.

리소스

관련 모범 사례:

관련 문서:

관련 비디오:

관련 예제: