OPS10-BP03 비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정 - 운영 우수성 원칙

OPS10-BP03 비즈니스 영향을 기반으로 운영 이벤트의 우선순위 지정

운영 이벤트에 즉시 대응하는 것이 중요하지만 모든 이벤트가 동일한 것은 아닙니다. 비즈니스 영향을 기준으로 우선 순위를 정할 때는 안전, 재정적 손실, 규정 위반 또는 평판 손상과 같은 중대한 결과를 초래할 가능성이 있는 이벤트를 해결하는 데에도 우선 순위를 둡니다.

원하는 결과: 운영 이벤트에 대한 대응은 비즈니스 운영 및 목표에 대한 잠재적 영향을 기반으로 우선 순위가 지정됩니다. 이렇게 하면 효율적이고 효과적으로 대응할 수 있습니다.

일반적인 안티 패턴:

  • 모든 이벤트는 동일한 수준의 긴급도로 처리되므로 중요한 문제를 해결하는 데 혼란과 지연이 발생합니다.

  • 영향이 큰 이벤트와 그렇지 않은 이벤트를 구분하지 못해 리소스가 잘못 할당됩니다.

  • 조직에 명확한 우선 순위 지정 프레임워크가 없기 때문에 운영 이벤트에 대한 대응이 일관되지 않습니다.

  • 이벤트는 비즈니스 성과에 미치는 영향보다는 보고된 순서를 기준으로 우선 순위가 지정됩니다.

이 모범 사례 확립의 이점:

  • 중요한 비즈니스 기능에 먼저 주의를 기울이도록 하여 잠재적 손상을 최소화

  • 여러 동시 이벤트 발생 시 리소스 할당을 개선

  • 조직의 신뢰 유지 및 규제 요구 사항 충족 능력을 향상

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 보통

구현 가이드

여러 운영 이벤트가 발생하는 경우 영향과 긴급성을 기반으로 우선 순위를 정하는 체계적인 접근 방식이 필수적입니다. 이 접근 방식을 사용하면 정보에 입각한 결정을 내리고, 가장 필요한 부분에 노력을 기울이고, 비즈니스 연속성에 대한 위험을 완화할 수 있습니다.

구현 단계

  1. 영향 평가: 이벤트가 비즈니스 운영 및 목표에 미치는 잠재적 영향을 기준으로 이벤트의 심각도를 평가하는 분류 체계를 개발합니다. 다음 예에서는 영향 범주를 보여 줍니다.

    영향 수준 설명

    높음

    많은 직원이나 고객에게 영향을 미치거나, 높은 재정적 영향, 높은 평판 손상 또는 부상을 초래합니다.

    보통

    직원 또는 고객 그룹에 영향을 미치거나, 재정적 영향이 크지 않거나, 평판에 어느 정도의 손해를 끼칩니다.

    낮음

    개별 직원 또는 고객에게 영향을 미치거나, 재정적 영향이 적거나, 평판에 미치는 영향이 적습니다.

  2. 긴급성 평가: 안전, 재정적 영향, 서비스 수준 계약(SLA)과 같은 요소를 고려하여 이벤트에 얼마나 빨리 대응해야 하는지에 대한 긴급 수준을 정의합니다. 다음 예는 긴급성 범주를 보여줍니다.

    긴급성 수준 설명

    높음

    피해가 기하급수적으로 증가하고, 시간에 민감한 업무가 영향을 받거나, 에스컬레이션이 임박하거나, VIP 사용자 또는 그룹이 영향을 받습니다.

    보통

    피해가 시간이 경과함에 따라 증가하거나 단일 VIP 사용자 또는 그룹이 영향을 받습니다.

    낮음

    시간이 지남에 따라 미미한 손상이 증가하거나 시간에 민감하지 않은 작업에 영향을 미칩니다.

  3. 우선순위 매트릭스 만들기:

    • 매트릭스를 사용하여 영향과 긴급성을 상호 참조하여 다양한 조합에 우선순위 수준을 할당합니다.

    • 운영 이벤트 대응을 담당하는 모든 팀 구성원이 매트릭스에 액세스하고 이를 이해할 수 있도록 하세요.

    • 다음 예제 매트릭스는 긴급성과 영향에 따라 인시던트 심각도를 표시합니다.

    긴급성 및 영향 높음 보통 낮음

    높음

    심각

    긴급

    높음

    보통

    긴급

    높음

    일반

    낮음

    높음

    일반

    낮음

  4. 교육 및 커뮤니케이션: 대응 팀에 우선순위 매트릭스와 이벤트 중 우선순위 매트릭스 준수의 중요성에 대해 교육합니다. 우선순위 지정 프로세스를 모든 이해관계자에게 전달하여 명확한 기대치를 설정합니다.

  5. 인시던트 대응과 통합:

    • 우선순위 매트릭스를 인시던트 대응 계획 및 도구에 통합합니다.

    • 가능한 경우 이벤트의 분류 및 우선 순위 지정을 자동화하여 대응 시간을 단축합니다.

    • 엔터프라이즈 지원 고객은 프로덕션 워크로드에 대한 연중무휴 사전 모니터링 및 인시던트 관리를 제공하는 AWS 인시던트 탐지 및 대응을 활용할 수 있습니다.

  6. 검토 및 조정: 우선 순위 지정 프로세스의 효과를 정기적으로 검토하고 비즈니스 환경의 피드백과 변화를 기반으로 조정합니다.

리소스

관련 모범 사례:

관련 문서: