OPS11-BP02 인시던트 사후 분석 수행 - AWS Well-Architected 프레임워크

OPS11-BP02 인시던트 사후 분석 수행

고객에게 영향을 주는 이벤트를 검토하고 기여 요인과 예방 조치를 식별합니다. 이 정보를 사용하여 재발을 제한하거나 방지하는 완화 기능을 개발합니다. 신속하고 효과적인 대응을 위한 절차를 개발합니다. 목표 대상에 맞게 적절히 발생 요인과 수정 조치를 전달합니다.

원하는 성과:

  • 인시던트 사후 분석을 포함하는 인시던트 관리 프로세스를 수립했습니다.

  • 이벤트에 대한 데이터를 수집하기 위한 관찰성 계획이 마련되어 있습니다.

  • 이 데이터를 통해 인시던트 사후 분석 프로세스를 지원하는 지표를 이해하고 수집할 수 있습니다.

  • 인시던트로부터 교훈을 얻어 미래의 결과를 개선합니다.

일반적인 안티 패턴:

  • 애플리케이션 서버를 관리합니다. 약 23시간 55분마다 모든 활성 세션이 종료됩니다. 애플리케이션 서버에서 무엇이 잘못되었는지 파악하려고 했습니다. 네트워크 문제일 수도 있다고 생각하지만 네트워크 팀이 너무 바쁜 관계로 지원을 받을 수 없습니다. 지원을 받고 진행 상황을 파악하는 데 필요한 정보를 수집하기 위해 따라야 할 사전 정의된 프로세스가 없습니다.

  • 워크로드 내에서 데이터가 손실되었습니다. 이런 일은 처음이며 그 원인이 명확하지 않습니다. 데이터를 다시 생성할 수 있으므로 대수롭지 않은 일로 생각합니다. 데이터 손실이 발생하면서 고객에게 영향을 미치는 빈도가 증가합니다. 또한 이로 인해 누락된 데이터를 복원할 때 운영 부담이 가중됩니다.

이 모범 사례 확립의 이점:

  • 인시던트에 기여한 구성 요소, 조건, 작업 및 이벤트를 결정하기 위해 사전 정의된 프로세스를 사용하면 개선 기회를 파악할 수 있습니다.

  • 인시던트 사후 분석에서 얻은 데이터를 사용하여 개선합니다.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

발생 요인을 확인하는 프로세스를 사용합니다. 고객에게 영향을 미치는 모든 인시던트를 검토합니다. 재발을 제한하거나 방지하기 위한 완화책을 개발하고 빠르고 효과적인 대응을 위한 절차를 개발할 수 있도록 인시던트의 기여 요인을 식별하고 문서화하는 프로세스를 마련합니다. 인시던트의 근본 원인을 적절하게 전달하고 대상 고객에 맞게 커뮤니케이션을 조정합니다. 조직 내에서 학습한 내용을 공개적으로 공유합니다.

구현 단계

  1. 배포 변경, 구성 변경, 인시던트 시작 시간, 경보 시간, 참여 시간, 완화 시작 시간, 인시던트 해결 시간과 같은 지표를 수집합니다.

  2. 인시던트 발생 상황을 파악하기 위해 타임라인에 주요 시점을 표시합니다.

  3. 다음과 같이 질문하세요.

    1. 감지 시간을 단축할 수 있나요?

    2. 인시던트를 더 빨리 감지할 수 있는 지표 및 경보 업데이트가 있습니까?

    3. 진단 시간을 개선할 수 있나요?

    4. 대응 계획이나 에스컬레이션 계획에 올바른 대응 담당자를 더 빨리 투입할 수 있는 업데이트가 있습니까?

    5. 완화 시간을 단축할 수 있나요?

    6. 추가하거나 개선할 수 있는 런북 또는 플레이북 단계가 있나요?

    7. 향후 인시던트 발생을 방지할 수 있나요?

  4. 체크리스트와 작업을 생성합니다. 모든 작업을 추적하고 전달합니다.

구현 계획의 작업 수준: 중간

리소스

관련 모범 사례:

관련 문서: