OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용 - AWS Well-Architected Framework

OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용

조직에는 이벤트, 인시던트 및 문제를 처리하기 위한 프로세스가 있습니다. 이벤트 는 워크로드에서 발생하는 일이지만 개입이 필요하지 않을 수 있습니다. 인시던트 는 개입이 필요한 이벤트입니다. 문제 는 개입이 필요하거나 해결할 수 없는 반복 이벤트입니다. 이러한 이벤트가 비즈니스에 미치는 영향을 줄일 수 있는 프로세스가 필요하며 적절하게 대응하는지 확인해야 합니다.

인시던트 및 문제가 워크로드에 발생하면 처리하기 위한 프로세스가 필요합니다. 이해관계자에게 이벤트 상태를 어떻게 전달할 수 있을까요? 대응 주도를 감독하는 사람은 누구인가요? 이벤트로 인한 피해를 줄이기 위해 사용하는 도구는 무엇인가요? 이는 확실한 대응 프로세스를 갖추기 위해 답변해야 하는 질문의 몇 가지 예입니다.

프로세스는 중앙 위치에 문서화해 두어야 하며 워크로드와 관련된 사람은 누구나 사용할 수 있어야 합니다. 중앙 Wiki 또는 문서 저장소가 없다면 버전 관리 리포지토리를 사용할 수 있습니다. 프로세스 발전에 맞춰 이러한 계획을 최신 상태로 유지하게 됩니다.

문제는 자동화 후보입니다. 이러한 이벤트는 혁신 역량에서 시간을 빼앗아 갑니다. 문제를 완화하기 위한 반복 프로세스를 구축하는 것부터 시작하세요. 시간이 흐른 후에는 완화 프로세스 자동화 또는 기본 문제 수정에 집중하세요. 그러면 워크로드 개선에 투자할 시간을 확보할 수 있습니다.

원하는 결과: 조직에는 이벤트, 인시던트 및 문제를 처리하기 위한 프로세스가 있습니다. 이러한 프로세스는 문서화되어 중앙 위치에 저장되고 프로세스가 변함에 따라 업데이트됩니다.

일반적인 안티 패턴:

  • 인시던트가 주말에 발생했는데 당직 근무 중인 엔지니어가 무엇을 해야 할지 모릅니다.

  • 고객은 여러분에게 애플리케이션이 다운되었다는 이메일을 보내고 여러분은 서버를 재부팅하여 문제를 해결합니다. 이러한 상황이 빈번하게 발생합니다.

  • 한 가지 인시던트를 여러 팀에서 해결하기 위해 따로 노력합니다.

  • 워크로드에서 배포가 있었는데, 기록되지 않습니다.

이 모범 사례 확립의 이점:

  • 워크로드에서 이벤트를 감사 추적합니다.

  • 인시던트에서 복구 시간이 단축됩니다.

  • 팀원이 일관된 방식으로 인시던트와 문제를 해결할 수 있습니다.

  • 인시던트를 조사할 때 더욱 통합된 노력을 기울일 수 있습니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

이 모범 사례를 구현하면 워크로드 이벤트를 추적하게 됩니다. 인시던트 및 문제를 처리하기 위한 프로세스를 보유하게 되며, 프로세스는 문서화되고 공유되며 자주 업데이트됩니다. 문제가 파악되면 우선순위가 지정되고 해결됩니다.

고객 사례

AnyCompany Retail은 이벤트, 인시던트, 문제 관리를 위한 프로세스 전용 내부 Wiki를 갖추고 있습니다. 모든 이벤트는 다음 프로그램으로 전송됩니다. Amazon EventBridge. 문제는 AWS Systems Manager OpsCenter 에서 OpsItems로 식별되고 문제를 해결하도록 우선순위가 지정되어 획일적인 작업이 줄어듭니다. 프로세스가 변경되면 내부 Wiki에서 업데이트됩니다. 프로세스는 AWS Systems Manager Incident Manager 을(를) 사용하여 인시던트를 관리하고 피해를 줄이기 위한 작업을 조정합니다.

구현 단계

  1. 이벤트

    • 인간의 개입이 필요 없는 경우에도 워크로드에서 발생한 이벤트를 추적합니다.

    • 워크로드 이해관계자와 협력하여 추적해야 할 이벤트 목록을 작성합니다. 이러한 이벤트의 몇 가지 예시로는 완료된 배포 또는 성공적인 패치 등이 있습니다.

    • 또한 Amazon EventBridge 또는 Amazon Simple Notification Service 등과 같은 서비스를 사용하여 추적할 사용자 지정 이벤트를 생성할 수 있습니다.

  2. 인시던트

    • 인시던트에 대한 의사소통 계획을 정의하는 것으로 시작합니다. 인시던트에 대해 반드시 알아야 하는 이해 관계자는 누구인가요? 이해관계자를 루프 내에서 어떻게 유지하나요? 작업 조정은 누가 감독하나요? 의사소통 및 조정을 위한 내부 채팅 채널을 마련하는 것이 좋습니다.

    • 특히, 팀에 당직 순환 근무자가 없는 경우 워크로드를 지원하는 팀에 대한 에스컬레이션 경로를 정의하세요. 지원 수준에 따라 AWS Support를 사용하여 사례를 제출할 수도 있습니다.

    • 인시던트를 조사하기 위한 플레이북을 생성합니다. 플레이북에는 의사소통 계획 및 자세한 조사 단계를 포함해야 합니다. 조사에 AWS Health Dashboard 확인을 포함하세요.

    • 인시던트 대응 계획을 문서화합니다. 내부 및 외부 고객이 참여 규칙과 자신에게 기대되는 행동을 이해할 수 있도록 인시던트 관리 규칙을 전달합니다. 이러한 규칙을 사용하는 방법을 팀원에게 교육합니다.

    • 고객은 Incident Manager 를 사용하여 인시던트 대응 규칙을 설정 및 관리할 수 있습니다.

    • Enterprise Support 고객은 기술 지원 관리자의 인시던트 관리 워크숍 을 요청할 수 있습니다. 이 안내 워크숍에서는 기존 인시던트 대응 계획을 테스트하고 개선할 수 있는 영역을 식별하도록 돕습니다.

  3. 문제

    • 문제는 ITSM 시스템에서 식별하고 추적해야 합니다.

    • 알려진 문제를 모두 식별하고 해결에 필요한 작업 수준 및 워크로드에 미치는 영향별로 우선순위를 지정합니다.

      
                문제 우선순위 지정을 위한 조치 우선순위 매트릭스.
    • 미치는 영향이 크지만 노력이 적게 드는 문제부터 먼저 해결합니다. 해결되면 영향력이 낮고 노력이 적게 드는 문제로 진행합니다.

    • Systems Manager OpsCenter 를 사용하여 문제를 식별하고 해당 문제에 런북을 첨부한 다음 문제를 추적할 수 있습니다.

구현 계획의 작업 수준: 보통. 모범 사례를 구현하기 위한 프로세스 및 도구가 둘 다 필요합니다. 프로세스를 문서화하고 워크로드와 관련된 모든 사람들이 사용할 수 있도록 설정합니다. 프로세스를 자주 업데이트합니다. 문제를 관리하고 문제를 완화 또는 해결하기 위한 프로세스가 있습니다.

리소스

관련 모범 사례:

관련 문서:

관련 동영상:

관련 예시:

관련 서비스: