OPS10-BP02 알림별 프로세스 마련

효과적이고 효율적인 인시던트 관리를 위해서는 시스템의 각 알림에 대해 명확하고 정의된 프로세스를 마련하는 것이 필수적입니다. 이렇게 하면 모든 알림이 구체적이고 실행 가능한 대응으로 이어져 운영의 신뢰성과 대응력이 향상됩니다.

원하는 성과: 모든 알림은 구체적이고 잘 정의된 대응 계획을 개시합니다. 가능한 경우 명확한 소유권과 정의된 에스컬레이션 경로를 통해 대응이 자동화됩니다. 알림은 모든 운영자가 일관되고 효과적으로 대응할 수 있도록 최신 지식 베이스에 연결됩니다. 대응이 전반적으로 빠르고 균일하여 운영 효율성과 신뢰성이 향상됩니다.

일반적인 안티 패턴:

알림에는 사전 정의된 대응 프로세스가 없으므로 임시 조치 및 문제 해결이 지연될 수 있습니다.
알림 오버로드로 인해 중요한 알림이 간과됩니다.
명확한 소유권과 책임이 없기 때문에 알림이 일관되지 않은 방식으로 처리됩니다.

이 모범 사례 확립의 이점:

실행 가능한 알림만 발생시켜 알림 피로를 줄입니다.
운영 문제의 평균 해결 시간(MTTR)을 단축합니다.
평균 조사 시간(MTTI)이 단축되어 MTTR을 단축합니다.
운영 대응 규모를 조정할 수 있는 기능을 개선합니다.
운영 이벤트 처리의 일관성과 신뢰성이 향상됩니다.

예를 들어 애플리케이션 경보, 운영 문제 및 계획된 수명 주기 이벤트(클러스터가 자동 업데이트되기 전에 Amazon EKS 버전 업데이트 등)를 포함하여 중요한 계정에 대한 AWS Health 이벤트에 대해 정의된 프로세스가 있으며 팀이 이러한 이벤트를 적극적으로 모니터링하고, 소통하고, 대응할 수 있는 역량을 제공합니다. 이러한 작업을 통해 AWS 측 변경으로 인한 서비스 중단을 방지하거나 예상치 못한 문제가 발생할 때 더 빠르게 완화할 수 있습니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 지침

알림별 프로세스를 갖추려면 각 알림에 대한 명확한 대응 계획을 마련하고, 가능한 경우 대응을 자동화하며, 운영 피드백과 변화하는 요구 사항을 기반으로 이러한 프로세스를 지속적으로 개선해야 합니다.

구현 단계

다음 다이어그램은 AWS Systems Manager Incident Manager 내 인시던트 관리 워크플로를 보여줍니다. 이는 Amazon CloudWatch 또는 Amazon EventBridge의 특정 이벤트에 대한 대응으로 인시던트를 자동으로 생성하여 운영 문제에 신속하게 대응할 수 있도록 설계되었습니다. 인시던트가 자동 또는 수동으로 생성되면 Incident Manager에서 인시던트 관리를 중앙 집중화하고 관련 AWS 리소스 정보를 구성하며 사전 정의된 대응 계획을 개시합니다. 여기에는 즉각적인 조치를 위한 Systems Manager Automation 런북 실행과 관련 작업 및 분석을 추적하기 위해 OpsCenter에 상위 운영 작업 항목을 생성하는 것도 포함됩니다. 이 간소화된 프로세스는 AWS 환경 전반에서 인시던트 대응을 가속화하고 조정합니다.

Incident Manager의 운영 방식을 나타내는 플로차트 - 채팅 애플리케이션 내 Amazon Q Developer, 에스컬레이션 계획 및 연락처, 런북이 대응 계획으로 전달되어 인시던트 및 분석으로 이어집니다. Amazon CloudWatch는 대응 계획에도 적용됩니다.

복합 경보 사용: CloudWatch에서 복합 경보를 생성하여 경보를 그룹화하고 노이즈를 줄이며 보다 의미 있는 대응이 가능하게 합니다.
AWS Health로 최신 정보를 확인하세요: AWS Health는 AWS 클라우드 리소스 상태에 대한 신뢰할 수 있는 정보 소스입니다. AWS Health를 사용해 계획된 수명 주기 이벤트와 같은 현재 서비스 이벤트 및 예정된 변경 사항을 시각화하고 알림을 받아 영향 완화 조치를 취할 수 있습니다.
1. AWS 사용자 알림를 통해 이메일 및 채팅 채널에 적합한 AWS Health 이벤트 알림을 생성하고, AWS Health API 또는 Amazon EventBridge를 통해 모니터링 및 알림 도구와 프로그래밍 방식으로 통합할 수 있습니다.
2. Amazon EventBridge 또는 AWS Health API를 통해 이미 사용할 수 있는 변경 관리 또는 ITSM 도구(예: Jira 또는 ServiceNow)와 통합하여 조치가 필요한 상태 이벤트에 대한 진행 상황을 계획하고 추적하세요.
3. AWS Organizations를 사용하는 경우 AWS Health에 대한 조직 보기를 활성화하여 계정 간에 AWS Health 이벤트를 집계합니다.
Amazon CloudWatch 경보를 Incident Manager와 통합: AWS Systems Manager Incident Manager에서 인시던트를 자동으로 생성하도록 CloudWatch 경보를 구성합니다.
Amazon EventBridge를 Incident Manager와 통합: EventBridge 규칙을 만들어 정의된 대응 계획에 따라 이벤트에 대응하고 인시던트를 생성합니다.
Incident Manager에서 인시던트 준비:
- 알림 유형별 세부 대응 계획을 Incident Manager에서 수립합니다.
- Incident Manager의 대응 계획에 연결된 채팅 애플리케이션 내 Amazon Q Developer를 통해 채팅 채널을 설정하여 Slack, Microsoft Teams 및 Amazon Chime과 같은 여러 플랫폼에서 인시던트 발생 시 실시간 커뮤니케이션을 용이하게 합니다.
- Incident Manager 내에서 Systems Manager Automation 런북을 통합하여 인시던트에 대한 자동 대응을 유도합니다.

리소스

관련 모범 사례:

관련 문서:

관련 비디오:

관련 예제:

AWS 워크숍 - AWS Systems Manager Incident Manager - Automate incident response to security events

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용

OPS10-BP03 비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정