Incident Manager에서 인시던트 사후 분석 수행 - Incident Manager

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Incident Manager에서 인시던트 사후 분석 수행

인시던트 사후 분석은 탐지 및 완화 시간을 포함하여 인시던트 대응에 대한 개선 사항을 식별하는 과정을 안내합니다. 분석을 통해 인시던트의 근본 원인을 이해하는 데도 도움이 될 수 있습니다. Incident Manager는 인시던트 대응을 개선하기 위한 권장 조치 항목을 생성합니다.

인시던트 사후 분석의 이점
  • 인시던트 대응 개선

  • 문제의 근본 원인 파악

  • 실행 가능한 조치 항목으로 근본 원인 해결

  • 인시던트의 영향 분석

  • 조직 내에서 학습한 내용을 캡처 및 공유

분석을 사용하지 말아야 할 경우

분석에는 비난하는 내용이 없고 사람의 이름을 언급하지 않습니다.

“우리가 발견한 내용이 무엇이든, 우리는 모든 사람이 당시에 자신이 알고 있는 것, 자신의 기술과 능력, 가용한 자원, 당면한 상황을 고려하여 최선을 다했다는 것을 알고 있고 진심으로 그렇게 믿고 있습니다.” - Norm Kerth, 프로젝트 회고 조사: 팀 검토를 위한 핸드북

분석 세부 정보

분석 세부 정보 페이지는 정보 수집, 개선 사항 평가, 조치 항목 생성 과정을 안내합니다. 분석 세부 정보 페이지는 과거 지표, 편집 가능한 타임라인, 향후 인시던트를 개선하기 위한 질문 등 몇 가지 주요 차이점을 제외하고 인시던트 세부 정보와 유사합니다.

개요

개요는 인시던트를 요약한 것입니다. 이 요약에는 배경, 발생 항목, 발생 원인, 완화 방법, 기간, 인시던트 재발을 방지하기 위한 주요 조치 항목이 포함됩니다. 개요는 개략적인 내용입니다. 분석의 질문 탭에서 자세한 내용을 살펴볼 수 있습니다.

지표

지표 탭을 사용하면 인시던트 기간 동안 애플리케이션의 주요 지표를 시각화할 수 있습니다. 동일한 그래프에 하나 이상의 지표가 표시된 지표 그래프를 여기에 추가할 수 있습니다. 인시던트 중에 사용된 지표는 이 탭에 자동으로 채워집니다. 인시던트 발생 중 주요 시점에 대한 설명, 제목 및 주석을 추가하는 것이 좋습니다.

지표 그래프를 분석할 때 고려할 수 있는 몇 가지 주요 시점은 다음과 같습니다.

  • 배포 변경

  • 구성 변경

  • 인시던트 시작 시간

  • 경보 이름

  • 참여 시간

  • 완화 시작 시간

  • 인시던트 해결 시간

제한 사항
  • CloudWatch 경보 및 지표 표현식은 인시던트에서 가져오지 않습니다.

  • Incident Manager가 지원하지 않는 리전에 있는 지표는 인시던트에서 가져오지 않습니다.

  • 분석을 생성하기 전에 애플리케이션 계정의 지표에 CloudWatch-CrossAccountSharingRole의 구성이 필요합니다. 자세한 내용은 Amazon CloudWatch 사용 설명서의 크로스 계정 크로스 리전 CloudWatch 콘솔을 참조하세요.

타임라인

인시던트에 대한 심도 있는 이해를 위해 타임라인의 주요 시점을 설명합니다. 이 탭에서 인시던트 타임라인이 자동으로 채워집니다. 분석과 관련이 없는 시점을 삭제할 수 있습니다. 또한 시점을 추가하고 편집하여 인시던트와 그 영향을 더 정확하게 설명할 수 있습니다.

타임라인 탭을 사용하면 질문 탭에 있는 인시던트 대응에 대한 질문에 답할 수 있습니다.

질문

Incident Manager 질문을 사용하면 애플리케이션에서 인시던트를 해결하는 데 걸리는 시간을 단축하고 인시던트 발생을 줄일 수 있습니다. 질문에 답할 때 지표타임라인 탭을 업데이트하여 정확성을 높이십시오. 질문은 인시던트 대응의 다음과 같은 주요 측면에 초점을 맞춥니다.

  • 탐지 — 탐지 시간을 단축할 수 있습니까? 인시던트를 더 빨리 감지할 수 있는 지표 및 경보 업데이트가 있습니까?

  • 진단 — 진단 시간을 단축할 수 있습니까? 대응 계획이나 에스컬레이션 계획에 올바른 대응 담당자를 더 빨리 투입할 수 있는 업데이트가 있습니까?

  • 완화 — 완화 시간을 단축할 수 있습니까? 추가하거나 개선할 수 있는 런북 단계가 있습니까?

  • 예방 — 미래의 인시던트 발생을 예방할 수 있습니까? 인시던트의 근본 원인을 파악하기 위해 Amazon은 문제 조사에 5-Whys 접근 방식을 사용합니다.

작업

Incident Manager는 사용자가 질문을 완료하면서 검토할 수 있도록 권장 조치 항목을 생성합니다. 이 탭에서 이러한 작업을 수락하고 완료하거나 취소할 수 있습니다. 취소된 조치 항목을 선택하여 취소된 조치 항목을 검토할 수 있습니다. 조치 항목은 OpsCenter의 분석 및 인시던트와 연결된 일종의 OpsItem입니다.

체크리스트

분석을 종료하기 전에 체크리스트를 사용하여 대응 담당자가 취해야 할 조치를 검토하십시오. 대응 담당자가 체크리스트의 작업을 완료하면 작업 옆의 아이콘이 타원에서 확인 표시로 변경되어 작업이 완료되었음을 나타냅니다. 체크리스트 항목을 완료하지 않은 경우 Incident Manager는 대응 담당자가 분석을 완료하지 않고 분석을 종료하기를 원하는지 확인하는 메시지를 표시합니다.

분석 템플릿

분석 템플릿은 인시던트의 근본 원인을 자세히 설명하는 일련의 질문을 제공합니다. 이러한 질문에 대한 답을 바탕으로 애플리케이션 성능과 인시던트 대응을 개선할 수 있습니다.

AWS 표준 템플릿

Incident Manager는 AWS 인시던트 대응 및 문제 분석 모범 사례를 기반으로 한 AWSIncidents-PostIncidentAnalysisTemplate 제목의 표준 질문 템플릿을 제공합니다.

분석 템플릿 생성

기본 AWSIncidents-PostIncidentAnalysisTemplate 템플릿을 사용하고 사용 사례에 적합한 질문이나 섹션을 추가하는 것이 좋습니다. 기본 템플릿을 기반으로 분석 템플릿 생성 이 템플릿을 시작점으로 사용하여 관리 계정에서 분석 템플릿을 생성할 수 있습니다. 그런 다음 Incident Manager를 활성화한 각 리전에 분석 템플릿을 복제할 수 있습니다.

분석 템플릿 생성
  1. GetDocument 조치를 직접적으로 호출하고 해당 Name 파라미터를 사용하여 AWSIncidents-PostIncidentAnalysisTemplate을 다운로드합니다. GetDocument 구문에 대한 자세한 내용은 Systems Manager API 참조를 참조하세요.

  2. 응답 내용에는 분석을 위한 JSON 구성 블록이 포함되어 있습니다. 질문 구성 블록을 사용하여 분석에 추가 질문을 삽입할 수 있습니다. Incident questions 섹션에 질문이나 섹션을 추가하는 것이 좋습니다.

  3. 새 템플릿을 만들려면 이전 단계에서 업데이트된 JSON을 사용한 CreateDocument 작업을 사용하십시오. 다음을 포함해야 합니다. 여기서 Analysis_Template_Name은 템플릿 이름입니다.

    • DocumentFormat: "JSON"

    • DocumentType: "ProblemAnalysisTemplate"

    • Name: "Analysis_Template_Name"

분석 만들기

  1. 분석을 만들려면 종료된 인시던트의 인시던트 세부 정보 페이지에서 분석 만들기를 선택합니다.

  2. 이 분석을 만들 때 사용할 분석 템플릿을 선택하고 분석을 설명하는 이름을 입력합니다.

  3. 생성을 선택합니다.

인쇄용으로 형식이 지정된 완전하거나 불완전한 분석의 사본을 생성할 수 있습니다. 이 사본을 PDF로 저장할 수도 있습니다. 한 번에 하나의 분석을 인쇄할 수 있습니다. 다중 분석의 배치 인쇄는 현재 지원되지 않습니다.

형식이 지정된 분석을 인쇄하려면
  1. Incident Manager 콘솔을 엽니다.

  2. 분석 탭을 선택합니다.

  3. 인쇄하려는 분석 제목을 선택합니다.

  4. 분석 세부 정보 페이지의 오른쪽 상단에서 인쇄를 선택합니다.

  5. 인시던트 분석 인쇄 대화 상자에서 인쇄된 버전에 포함하지 않으려는 분석 섹션을 지웁니다. 기본적으로 모든 섹션이 선택됩니다.

  6. 인쇄를 선택하여 디바이스의 로컬 인쇄 제어를 엽니다.

  7. 인쇄 대상 또는 형식을 선택합니다. 로컬 또는 네트워크 프린터를 선택하거나 분석을 PDF로 저장할 수 있습니다. 필요한 경우 나머지 인쇄 옵션을 변경한 다음 인쇄를 선택합니다.

    참고

    로컬 인쇄 제어는 웹 브라우저 및 디바이스에서 제공하는 사용자 인터페이스를 말합니다.

    인쇄 대상은 디바이스에 맞게 구성되어 있고 디바이스에서 액세스할 수 있는 대상입니다.