OPS10-BP04 에스컬레이션 경로 정의 - 운영 우수성 원칙

OPS10-BP04 에스컬레이션 경로 정의

인시던트 대응 프로토콜 내에 명확한 에스컬레이션 경로를 설정하여 시의적절하고 효과적인 조치를 취합니다. 여기에는 에스컬레이션 프롬프트 지정, 에스컬레이션 프로세스 상세 설명, 신속한 의사 결정 및 평균 해결 시간(MTTR) 단축을 위한 사전 승인 조치가 포함됩니다.

원하는 성과: 인시던트를 적절한 담당자에게 에스컬레이션하여 대응 시간과 영향을 최소화하는 체계적이고 효율적인 프로세스입니다.

일반적인 안티 패턴:

  • 복구 절차가 명확하지 않으면 중대한 인시던트가 발생했을 때 임시방편책으로 대응해야 합니다.

  • 정의된 권한 및 소유권이 없으면 긴급 조치가 필요한 경우 지연이 발생합니다.

  • 이해관계자와 고객에게는 기대에 부합하는 정보가 제공되지 않습니다.

  • 중요한 결정이 지연됩니다.

이 모범 사례 확립의 이점:

  • 사전 정의된 에스컬레이션 절차를 통해 인시던트 대응을 간소화합니다.

  • 사전 승인된 조치와 명확한 소유권을 통해 가중 중지 시간을 줄입니다.

  • 인시던트 심각도에 따라 리소스 할당 및 지원 수준 조정을 개선합니다.

  • 이해관계자 및 고객과의 커뮤니케이션을 개선합니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 중간

구현 가이드

적절하게 정의된 에스컬레이션 경로는 신속한 인시던트 대응에 매우 중요합니다. AWS Systems Manager Incident Manager에서는 인시던트 발생 시 적절한 조치를 취할 수 있도록 적절한 담당자에게 알림을 보내는 구조화된 에스컬레이션 계획 및 당직 일정을 설정할 수 있도록 지원합니다.

구현 단계

  1. 에스컬레이션 프롬프트 설정: CloudWatch 경보를 설정하여 AWS Systems Manager Incident Manager에서 인시던트를 생성합니다.

  2. 당직 일정 설정: Incident Manager에서 에스컬레이션 경로에 맞게 조정된 당직 일정을 생성합니다. 당직 근무 중인 직원에게 신속하게 조치를 취하는 데 필요한 권한과 도구를 제공합니다.

  3. 상세 에스컬레이션 절차:

    • 인시던트를 에스컬레이션해야 하는 구체적인 조건을 결정합니다.

    • Incident Manager에서 에스컬레이션 계획을 생성합니다.

    • 에스컬레이션 채널은 연락처 또는 당직 일정으로 구성되어야 합니다.

    • 각 에스컬레이션 수준에서 팀의 역할과 책임을 정의합니다.

  4. 완화 조치 사전 승인: 의사 결정권자와 협업하여 예상 시나리오에 대한 조치를 사전 승인합니다. Incident Manager와 통합된 Systems Manager Automation 런북을 사용하여 인시던트을 빠르게 해결합니다.

  5. 소유권 지정: 에스컬레이션 경로의 각 단계에서 내부 소유자를 명확하게 식별합니다.

  6. 서드파티 에스컬레이션에 대한 세부 정보:

    • 서드파티의 서비스 수준에 관한 계약(SLA)을 문서화하고 내부 목표에 맞게 조정합니다.

    • 인시던트 발생 시 공급업체 커뮤니케이션을 위한 명확한 프로토콜을 설정합니다.

    • 공급업체 연락처를 인시던트 관리 도구에 통합하여 직접 액세스할 수 있습니다.

    • 서드파티 대응 시나리오가 포함된 정기적인 훈련을 실시합니다.

    • 공급업체 에스컬레이션 정보를 체계적으로 문서화하고 쉽게 액세스할 수 있도록 합니다.

  7. 에스컬레이션 계획 교육 및 연습: 에스컬레이션 프로세스에 대해 팀을 교육하고 정기적인 인시던트 대응 훈련 또는 게임 데이를 실시합니다. Enterprise Support 고객은 Incident Management 워크숍을 요청할 수 있습니다.

  8. 지속적인 개선: 에스컬레이션 경로의 효과를 정기적으로 검토합니다. 인시던트 사후 분석 및 지속적인 피드백을 통해 학습한 교훈을 기반으로 프로세스를 업데이트합니다.

구현 계획의 작업 수준: 보통

리소스

관련 모범 사례:

관련 문서: