OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용
이벤트, 인시던트 및 문제를 효율적으로 관리하는 능력은 워크로드 상태 및 성능을 유지하는 데 매우 중요합니다. 효과적인 대응 및 해결 전략을 개발하려면 이러한 요소 간의 차이점을 인식하고 이해하는 것이 매우 중요합니다. 각 측면에 대해 잘 정의된 프로세스를 수립하고 준수하면 팀이 발생하는 모든 운영 문제를 신속하고 효과적으로 처리하는 데 도움이 됩니다.
원하는 성과: 체계적으로 문서화되고 중앙 집중식으로 저장된 프로세스를 통해 운영 이벤트, 인시던트 및 문제를 효과적으로 관리합니다. 이러한 프로세스는 변경 사항을 반영하여 지속적으로 업데이트되므로 처리가 간소화되고 높은 서비스 신뢰성과 워크로드 성능이 유지됩니다.
일반적인 안티 패턴:
-
이벤트에 사전 대응보다는 사후 대응 방식으로 대응합니다.
-
다양한 유형의 이벤트 또는 인시던트에 대해 일관되지 않은 접근 방식을 취합니다.
-
조직은 향후 인시던트 방지를 위해 인시던트를 분석하고 학습하는 과정을 진행하지 않습니다.
이 모범 사례 확립의 이점:
-
간소화되고 표준화된 대응 프로세스.
-
인시던트가 서비스 및 고객에게 미치는 영향 감소.
-
신속한 문제 해결.
-
운영 프로세스의 지속적인 개선.
이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음
구현 가이드
이 모범 사례를 구현하면 워크로드 이벤트를 추적하게 됩니다. 인시던트 및 문제를 처리하기 위한 프로세스를 보유하게 됩니다. 이 프로세스는 문서화되고 공유되며 자주 업데이트됩니다. 문제가 파악되면 우선순위가 지정되고 해결됩니다.
이벤트, 인시던트 및 문제에 대한 이해
-
이벤트: 이벤트는 동작, 발생 또는 상태 변경을 관찰한 결과일 수 있습니다. 이벤트는 계획된 것일 수도 있고 계획되지 않은 것일 수도 있으며 워크로드의 내부 또는 외부에서 발생할 수 있습니다.
-
인시던트: 인시던트는 예상치 못한 중단이나 서비스 품질 저하와 같이 대응이 필요한 이벤트를 말합니다. 이는 정상적인 워크로드 운영을 복원하기 위해 즉각적인 조치가 필요한 장애를 나타냅니다.
-
문제: 문제는 하나 이상의 인시던트의 근본 원인을 말합니다. 문제를 식별하고 해결하려면 인시던트를 더 깊이 파고들어 향후 발생을 방지해야 합니다.
구현 단계
이벤트
-
이벤트 모니터링:
-
관찰성을 구현하고 워크로드 관찰성을 활용하세요.
-
사용자, 역할 또는 AWS 서비스에서 수행한 모니터링 작업은 AWS CloudTrail
에 이벤트로 기록됩니다. -
Amazon EventBridge
에서 실시간으로 애플리케이션의 운영 변화에 대응합니다. -
AWS Config
에서 리소스 구성 변경 사항을 지속적으로 평가, 모니터링 및 기록합니다.
-
-
프로세스 생성:
-
어떤 이벤트가 중요하고 모니터링이 필요한지 평가하는 프로세스를 개발합니다. 여기에는 정상 및 비정상 활동에 대한 임곗값 및 파라미터 설정이 포함됩니다.
-
이벤트를 인시던트로 에스컬레이션하는 기준을 결정합니다. 심각도, 사용자에게 미치는 영향 또는 예상 행동과의 차이를 토대로 결정할 수 있습니다.
-
이벤트 모니터링 및 대응 프로세스를 정기적으로 검토합니다. 여기에는 과거 인시던트 분석, 임곗값 조정, 경고 메커니즘 개선이 포함됩니다.
-
인시던트
-
인시던트에 대응:
-
관찰성 도구의 인사이트를 사용하여 인시던트를 빠르게 식별하고 이에 대응합니다.
-
AWS Systems Manager Ops Center
를 구현하여 운영 항목 및 인시던트를 집계하고 체계화하며 우선순위를 지정합니다. -
심층적인 분석 및 문제 해결을 위해 Amazon CloudWatch
및 AWS X-Ray 같은 서비스를 사용합니다. -
향상된 인시던트 관리를 위해 선제적, 사전 예방 및 감지 기능을 활용하는 AWS Managed Services(AMS)
는 고려하세요. AMS는 모니터링, 인시던트 탐지 및 대응, 보안 관리와 같은 서비스를 통해 운영 지원을 확대합니다. -
Enterprise Support 고객은 프로덕션 워크로드에 대한 지속적인 사전 모니터링 및 인시던트 관리를 제공하는 AWS 인시던트 탐지 및 대응
을 사용할 수 있습니다.
-
-
인시던트 관리 프로세스 만들기:
-
명확한 역할, 커뮤니케이션 프로토콜, 해결 단계를 포함한 구조화된 인시던트 관리 프로세스를 수립합니다.
-
효율적인 대응 및 조정을 위해 Amazon Q Developer in chat applications
과 같은 도구를 통해 인시던트 관리를 통합합니다. -
각 범주에 대해 사전 정의된 인시던트 대응 계획을 사용하여 심각도를 기준으로 인시던트를 분류합니다.
-
-
학습 및 개선:
-
근본 원인을 이해하고 해결 방법의 효과를 확인하기 위해 인시던트 사후 분석을 수행합니다.
-
검토 및 발전하는 관행을 토대로 대응 계획을 지속적으로 업데이트하고 개선합니다.
-
팀 전반에서 학습한 내용을 문서화하고 공유하여 운영 복원력을 개선합니다.
-
Enterprise Support 고객은 기술 계정 관리자로부터 Incident Management 워크숍
을 요청할 수 있습니다. 이 안내 워크숍에서는 기존 인시던트 대응 계획을 테스트하고 개선할 수 있는 영역을 식별하도록 돕습니다.
-
문제
-
문제 파악:
-
이전 인시던트의 데이터를 사용하여 심층적인 시스템 문제를 시사하는 반복 패턴을 식별합니다.
-
AWS CloudTrail
및 Amazon CloudWatch 와 같은 도구를 활용하여 추세를 분석하고 근본적인 문제를 파악합니다. -
운영, 개발, 사업부를 비롯한 여러 팀이 참여하여 근본 원인에 대한 다양한 관점을 확보합니다.
-
-
문제 관리 프로세스 만들기:
-
빠른 해결보다는 장기적인 해결책에 초점을 맞춰 체계적인 문제 관리 프로세스를 개발합니다.
-
근본 원인 분석(RCA) 기술을 통합하여 인시던트의 근본 원인을 조사하고 이해합니다.
-
결과를 기반으로 운영 정책, 절차 및 인프라를 업데이트하여 재발을 방지합니다.
-
-
지속적인 개선:
-
지속적인 학습과 개선의 문화를 조성하여 팀이 잠재적인 문제를 사전에 식별하고 해결하도록 독려합니다.
-
진화하는 비즈니스 및 기술 환경에 맞게 문제 관리 프로세스와 도구를 정기적으로 검토하고 수정합니다.
-
조직 전반에 걸쳐 인사이트와 모범 사례를 공유하여 보다 복원력 있고 효율적인 운영 환경을 구축합니다.
-
-
AWS Support 참여:
-
선제적 지침 및 최적화 권장 사항에 대해 AWS지원 리소스(예: AWS Trusted Advisor
)를 사용합니다. -
Enterprise Support 고객은 AWS Countdown
과 같은 전문 프로그램을 통해 중요 이벤트 발생 시 지원을 받을 수 있습니다.
-
구현 계획의 작업 수준: 중간
리소스
관련 모범 사례:
관련 문서:
관련 비디오:
관련 예제:
관련 서비스: