OPS11-BP02 인시던트 사후 분석 수행
고객에게 영향을 주는 이벤트를 검토하고 기여 요인과 예방 조치를 식별합니다. 이 정보를 사용하여 재발을 제한하거나 방지하는 완화 기능을 개발합니다. 신속하고 효과적인 대응을 위한 절차를 개발합니다. 목표 대상에 맞게 적절히 발생 요인과 수정 조치를 전달합니다.
원하는 성과:
-
인시던트 사후 분석을 포함하는 인시던트 관리 프로세스를 수립했습니다.
-
이벤트에 대한 데이터를 수집하기 위한 관찰성 계획이 마련되어 있습니다.
-
이 데이터를 통해 인시던트 사후 분석 프로세스를 지원하는 지표를 이해하고 수집할 수 있습니다.
-
인시던트로부터 교훈을 얻어 미래의 결과를 개선합니다.
일반적인 안티 패턴:
-
애플리케이션 서버를 관리합니다. 약 23시간 55분마다 모든 활성 세션이 종료됩니다. 애플리케이션 서버에서 무엇이 잘못되었는지 파악하려고 했습니다. 네트워크 문제일 수도 있다고 생각하지만 네트워크 팀이 너무 바쁜 관계로 지원을 받을 수 없습니다. 지원을 받고 진행 상황을 파악하는 데 필요한 정보를 수집하기 위해 따라야 할 사전 정의된 프로세스가 없습니다.
-
워크로드 내에서 데이터가 손실되었습니다. 이런 일은 처음이며 그 원인이 명확하지 않습니다. 데이터를 다시 생성할 수 있으므로 대수롭지 않은 일로 생각합니다. 데이터 손실이 발생하면서 고객에게 영향을 미치는 빈도가 증가합니다. 또한 이로 인해 누락된 데이터를 복원할 때 운영 부담이 가중됩니다.
이 모범 사례 확립의 이점:
-
인시던트에 기여한 구성 요소, 조건, 작업 및 이벤트를 결정하기 위해 사전 정의된 프로세스를 사용하면 개선 기회를 파악할 수 있습니다.
-
인시던트 사후 분석에서 얻은 데이터를 사용하여 개선합니다.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음
구현 가이드
발생 요인을 확인하는 프로세스를 사용합니다. 고객에게 영향을 미치는 모든 인시던트를 검토합니다. 재발을 제한하거나 방지하기 위한 완화책을 개발하고 빠르고 효과적인 대응을 위한 절차를 개발할 수 있도록 인시던트의 기여 요인을 식별하고 문서화하는 프로세스를 마련합니다. 인시던트의 근본 원인을 적절하게 전달하고 대상 고객에 맞게 커뮤니케이션을 조정합니다. 조직 내에서 학습한 내용을 공개적으로 공유합니다.
구현 단계
-
배포 변경, 구성 변경, 인시던트 시작 시간, 경보 시간, 참여 시간, 완화 시작 시간, 인시던트 해결 시간과 같은 지표를 수집합니다.
-
인시던트 발생 상황을 파악하기 위해 타임라인에 주요 시점을 표시합니다.
-
다음과 같이 질문하세요.
-
감지 시간을 단축할 수 있나요?
-
인시던트를 더 빨리 감지할 수 있는 지표 및 경보 업데이트가 있습니까?
-
진단 시간을 개선할 수 있나요?
-
대응 계획이나 에스컬레이션 계획에 올바른 대응 담당자를 더 빨리 투입할 수 있는 업데이트가 있습니까?
-
완화 시간을 단축할 수 있나요?
-
추가하거나 개선할 수 있는 런북 또는 플레이북 단계가 있나요?
-
향후 인시던트 발생을 방지할 수 있나요?
-
-
체크리스트와 작업을 생성합니다. 모든 작업을 추적하고 전달합니다.
구현 계획의 작업 수준: 중간
리소스
관련 모범 사례:
관련 문서: