쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용 - AWS Well-Architected 프레임워크

OPS10-BP01 이벤트, 인시던트 및 문제 관리 프로세스 사용

이벤트, 인시던트 및 문제를 효율적으로 관리하는 능력은 워크로드 상태 및 성능을 유지하는 데 매우 중요합니다. 효과적인 대응 및 해결 전략을 개발하려면 이러한 요소 간의 차이점을 인식하고 이해하는 것이 매우 중요합니다. 각 측면에 대해 잘 정의된 프로세스를 수립하고 준수하면 팀이 발생하는 모든 운영 문제를 신속하고 효과적으로 처리하는 데 도움이 됩니다.

원하는 성과: 체계적으로 문서화되고 중앙 집중식으로 저장된 프로세스를 통해 운영 이벤트, 인시던트 및 문제를 효과적으로 관리합니다. 이러한 프로세스는 변경 사항을 반영하여 지속적으로 업데이트되므로 처리가 간소화되고 높은 서비스 신뢰성과 워크로드 성능이 유지됩니다.

일반적인 안티 패턴:

  • 이벤트에 사전 대응보다는 사후 대응 방식으로 대응합니다.

  • 다양한 유형의 이벤트 또는 인시던트에 대해 일관되지 않은 접근 방식을 취합니다.

  • 조직은 향후 인시던트 방지를 위해 인시던트를 분석하고 학습하는 과정을 진행하지 않습니다.

이 모범 사례 확립의 이점:

  • 간소화되고 표준화된 대응 프로세스.

  • 인시던트가 서비스 및 고객에게 미치는 영향 감소.

  • 신속한 문제 해결.

  • 운영 프로세스의 지속적인 개선.

이 모범 사례가 확립되지 않을 경우 노출되는 위험 수준: 높음

구현 가이드

이 모범 사례를 구현하면 워크로드 이벤트를 추적하게 됩니다. 인시던트 및 문제를 처리하기 위한 프로세스를 보유하게 됩니다. 이 프로세스는 문서화되고 공유되며 자주 업데이트됩니다. 문제가 파악되면 우선순위가 지정되고 해결됩니다.

이벤트, 인시던트 및 문제에 대한 이해

  • 이벤트: 이벤트는 동작, 발생 또는 상태 변경을 관찰한 결과일 수 있습니다. 이벤트는 계획된 것일 수도 있고 계획되지 않은 것일 수도 있으며 워크로드의 내부 또는 외부에서 발생할 수 있습니다.

  • 인시던트: 인시던트는 예상치 못한 중단이나 서비스 품질 저하와 같이 대응이 필요한 이벤트를 말합니다. 이는 정상적인 워크로드 운영을 복원하기 위해 즉각적인 조치가 필요한 장애를 나타냅니다.

  • 문제: 문제는 하나 이상의 인시던트의 근본 원인을 말합니다. 문제를 식별하고 해결하려면 인시던트를 더 깊이 파고들어 향후 발생을 방지해야 합니다.

구현 단계

이벤트

  1. 이벤트 모니터링:

  2. 프로세스 생성:

    • 어떤 이벤트가 중요하고 모니터링이 필요한지 평가하는 프로세스를 개발합니다. 여기에는 정상 및 비정상 활동에 대한 임곗값 및 파라미터 설정이 포함됩니다.

    • 이벤트를 인시던트로 에스컬레이션하는 기준을 결정합니다. 심각도, 사용자에게 미치는 영향 또는 예상 행동과의 차이를 토대로 결정할 수 있습니다.

    • 이벤트 모니터링 및 대응 프로세스를 정기적으로 검토합니다. 여기에는 과거 인시던트 분석, 임곗값 조정, 경고 메커니즘 개선이 포함됩니다.

인시던트

  1. 인시던트에 대응:

    • 관찰성 도구의 인사이트를 사용하여 인시던트를 빠르게 식별하고 이에 대응합니다.

    • AWS Systems Manager Ops Center를 구현하여 운영 항목 및 인시던트를 집계하고 체계화하며 우선순위를 지정합니다.

    • 심층적인 분석 및 문제 해결을 위해 Amazon CloudWatchAWS X-Ray 같은 서비스를 사용합니다.

    • 향상된 인시던트 관리를 위해 선제적, 사전 예방 및 감지 기능을 활용하는 AWS Managed Services(AMS)는 고려하세요. AMS는 모니터링, 인시던트 탐지 및 대응, 보안 관리와 같은 서비스를 통해 운영 지원을 확대합니다.

    • Enterprise Support 고객은 프로덕션 워크로드에 대한 지속적인 사전 모니터링 및 인시던트 관리를 제공하는 AWS 인시던트 탐지 및 대응을 사용할 수 있습니다.

  2. 인시던트 관리 프로세스 만들기:

    • 명확한 역할, 커뮤니케이션 프로토콜, 해결 단계를 포함한 구조화된 인시던트 관리 프로세스를 수립합니다.

    • 효율적인 대응 및 조정을 위해 Amazon Q Developer in chat applications과 같은 도구를 통해 인시던트 관리를 통합합니다.

    • 각 범주에 대해 사전 정의된 인시던트 대응 계획을 사용하여 심각도를 기준으로 인시던트를 분류합니다.

  3. 학습 및 개선:

    • 근본 원인을 이해하고 해결 방법의 효과를 확인하기 위해 인시던트 사후 분석을 수행합니다.

    • 검토 및 발전하는 관행을 토대로 대응 계획을 지속적으로 업데이트하고 개선합니다.

    • 팀 전반에서 학습한 내용을 문서화하고 공유하여 운영 복원력을 개선합니다.

    • Enterprise Support 고객은 기술 계정 관리자로부터 Incident Management 워크숍을 요청할 수 있습니다. 이 안내 워크숍에서는 기존 인시던트 대응 계획을 테스트하고 개선할 수 있는 영역을 식별하도록 돕습니다.

문제

  1. 문제 파악:

    • 이전 인시던트의 데이터를 사용하여 심층적인 시스템 문제를 시사하는 반복 패턴을 식별합니다.

    • AWS CloudTrailAmazon CloudWatch와 같은 도구를 활용하여 추세를 분석하고 근본적인 문제를 파악합니다.

    • 운영, 개발, 사업부를 비롯한 여러 팀이 참여하여 근본 원인에 대한 다양한 관점을 확보합니다.

  2. 문제 관리 프로세스 만들기:

    • 빠른 해결보다는 장기적인 해결책에 초점을 맞춰 체계적인 문제 관리 프로세스를 개발합니다.

    • 근본 원인 분석(RCA) 기술을 통합하여 인시던트의 근본 원인을 조사하고 이해합니다.

    • 결과를 기반으로 운영 정책, 절차 및 인프라를 업데이트하여 재발을 방지합니다.

  3. 지속적인 개선:

    • 지속적인 학습과 개선의 문화를 조성하여 팀이 잠재적인 문제를 사전에 식별하고 해결하도록 독려합니다.

    • 진화하는 비즈니스 및 기술 환경에 맞게 문제 관리 프로세스와 도구를 정기적으로 검토하고 수정합니다.

    • 조직 전반에 걸쳐 인사이트와 모범 사례를 공유하여 보다 복원력 있고 효율적인 운영 환경을 구축합니다.

  4. AWS Support 참여:

    • 선제적 지침 및 최적화 권장 사항에 대해 AWS지원 리소스(예: AWS Trusted Advisor)를 사용합니다.

    • Enterprise Support 고객은 AWS Countdown과 같은 전문 프로그램을 통해 중요 이벤트 발생 시 지원을 받을 수 있습니다.

구현 계획의 작업 수준: 중간

리소스

관련 모범 사례:

관련 문서:

관련 비디오:

관련 예제:

관련 서비스:

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.