가동 중지 비용 및 카오스 엔지니어링의 출현 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

가동 중지 비용 및 카오스 엔지니어링의 출현

ITIC(Information Technology Intelligence Consulting)는 기업의 90%가 가동 중지 시간당 300,000 USD를 초과하여 비용을 지출하고, 41%가 시간당 1~500만 달러를 초과하는 것으로 추정합니다. 즉각적인 수익 손실 외에도 가동 중지로 인해 규정 준수 실패, 주가 하락, 상당한 완화 비용, 브랜드 손상 등 장기적인 문제가 발생할 수 있습니다.

가동 중지는 일반적으로 수익 창출 온라인 시스템과 관련이 있지만 부정적인 영향은 그 이상으로 확장됩니다. 모든 대기업과 조직은 기본 수익 모델에 관계없이 HR 및 급여와 같은 내부 시스템의 가용성에 크게 의존합니다.

이러한 핵심 내부 서비스에 영향을 미치는 가동 중지는 회사의 기능 수행을 방해하여 상당한 운영 중단과 재정적 영향을 초래할 수 있습니다. 결과 문제에는 다음이 포함될 수 있습니다.

  • 직원 및 공급업체에 대한 지불 지연

  • 고객 주문 또는 거래를 처리할 수 없음

  • 손상된 보안 시스템에서 허용하는 민감한 데이터 침해

  • 생산성 및 수익 기회 손실

  • 규정 미준수에 대한 규제 처벌

  • 브랜드 평판 손상

카오스 엔지니어링은 의도적으로 제어된 중단을 초래합니다. 카오스 엔지니어링을 사용하여 장애에 대한 시스템의 응답을 이해하거나 확인하는 것은 시스템 복원력을 개선하는 중요한 관행이 되었습니다. 카오스 엔지니어링을 통해 조직은 문제를 사전에 발견하고, 복원력 메커니즘을 검증하고, 궁극적으로 예상치 못한 가동 중지 및 관련 비용의 위험을 줄일 수 있습니다. 카오스 엔지니어링의 이점은 다음과 같습니다.

  • 기술 부채 노출

  • 작동 중인 근력 운동

  • 시스템에 대한 신뢰 구축

  • 장애 지점 식별

  • 모니터링 및 관찰성 개선

  • 실험 기반 학습 지원

  • 향상된 복원력을 제공하여 가동 중지 시간 단축

시스템이 점점 더 복잡해지고 고객 기대치가 높아짐에 따라 카오스 엔지니어링의 중요성이 커지고 있습니다. 가트너는 계획되지 않은 가동 중지 시간을 줄이고 복원력을 개선하기 위해 조직에게 카오스 엔지니어링을 중요한 관행으로 권장합니다.

카오스 엔지니어링의 채택 과제

카오스 엔지니어링은 시스템 복원력을 개선하는 데 점점 더 중요한 관행이지만 채택은 다음과 같은 장애물에 직면할 수 있습니다.

  • 위험에 대한 오해 ‒ 일반적인 오해는 카오스 엔지니어링은 프로덕션 환경에서만 수행되므로 과도한 위험에 대한 우려로 이어집니다. 이러한 지각은 카오스 엔지니어링 관행의 체계적이고 통제된 특성에 대한 이해 부족에서 비롯됩니다. AWS Well-Architected Framework에 명시된 대로 먼저 비프로덕션 환경에서 결함 시뮬레이션을 수행합니다.

  • 장기 비즈니스 가치 ‒ 카오스 엔지니어링의 이점은 점진적으로 누적되므로 비즈니스 가치를 정량화하고 초기 투자를 정당화하기가 어렵습니다. ROI가 느리면 조직이 카오스 엔지니어링을 우선시하고 유지하기가 어렵습니다.

  • 기술 및 전문 지식 격차 - 카오스 엔지니어링에는 조직 내에서 쉽게 사용할 수 없는 고유한 기술 및 전문 지식 세트가 필요합니다. 이러한 전문 지식을 구축하거나 확보하는 것은 특히 실무를 처음 접하는 조직과 리소스가 제한된 조직에 상당한 장벽이 될 수 있습니다.

이 전략 문서의 나머지 부분은 주로 카오스 엔지니어링의 비즈니스 가치를 보여주는 두 번째 과제에 초점을 맞출 것입니다.

카오스 엔지니어링의 누적 효과

시작 및 종료 날짜가 잘 정의된 기존 기술 프로젝트와 달리 카오스 엔지니어링은 지속적인 학습과 시스템 복원력의 지속적인 개선의 지속적인 관행입니다. 시간 경과에 따른 카오스 엔지니어링 복합의 이점.

시스템이 진화하고 점점 더 복잡해짐에 따라 새로운 장애 모드가 나타납니다. 잠재적 문제를 식별하려면 더 많은 카오스 실험이 필요합니다. 문제 해결에는 몇 달이 걸릴 수 있으며, 특히 시스템과 프로세스가 복잡한 대기업이나 외부 서비스 공급자가 결함을 소유한 경우에는 더욱 그렇습니다.

학습 및 개선의 기회로서 실패를 수용하기 위한 문화적 전환은 수년에 걸쳐 증가하며 조직 내에서 복잡해집니다. 카오스 엔지니어링 실험 자동화 및 지원 도구 개발에 대한 투자는 카오스 엔지니어링 관행을 지속적으로 간소화하고 개선합니다. 시스템 복원력에 대한 이러한 제도적 지식과 이해를 구축하는 것은 시간이 지남에 따라 누적되는 점진적인 프로세스입니다. 카오스 엔지니어링을 통해 개발된 지식, 프로세스 및 도구는 지속적으로 진화하는 시스템과 함께 관행이 성숙해짐에 따라 가치를 높입니다.

다음 다이어그램은 카오스 채택이 다음 단계로 진행됨에 따라 시간이 지남에 따라 가치가 증가하는 방식을 보여줍니다.

  • 초기 채택

  • 학습

  • 장애 모드 분석

  • 일회성 실험

  • 주기적 GameDays

  • 지속적 실험

처음에는 값이 점진적으로 증가하고 일회성 실험 후에는 더 빠르게 증가합니다.

다이어그램에서 볼 수 있듯이 카오스 엔지니어링의 이점은 시스템에 결함이 주입되기 전에 시작되는 경우가 많습니다. 카오스 실험 자체를 계획하고 설계하는 프로세스는 즉각적인 가치를 제공합니다. 시스템의 잠재적 장애 시나리오, 단일 장애 지점 및 불확실성 영역을 식별하면 개선으로 이어집니다.

예를 들어 장애 시나리오를 작성하고 장애 모드 및 효과 분석(FMEA)이라는 프로세스인 잠재적 계단식 효과를 논의하면 간과되었을 수 있는 명백한 약점이나 격차를 발견하는 데 도움이 됩니다. 조직은 시스템에 의도적인 중단이 발생하기 전에도 이러한 문제를 사전에 해결할 수 있습니다. 자세한 내용은 복원력 분석 프레임워크를 참조하세요.

또한 카오스 엔지니어링 이니셔티브를 수반하는 시스템 관찰성 및 모니터링에 대한 집중도가 높아지면 즉시 이점을 제공하기 시작합니다. 시스템 동작 및 장애 모드에 대한 가시성을 개선하면 팀이 시스템의 정상 작동 조건을 더 잘 이해하는 데 도움이 됩니다. 또한 가시성이 향상되면 팀이 운영 조건이 한계에 도달했을 때 어떻게 저하, 적응 및 실패하는지 이해하는 데 도움이 됩니다.

일회성 실험 모드와 주기적 GameDay 모드는 모두 연속 실험 모드에 비해 더 수동적인 접근 방식입니다. 엔지니어가 관찰과 실험을 통해 가설을 적극적으로 구체화하고 구체화하는 보다 실습적이고 탐색적인 프로세스가 필요합니다.

반면 연속 실험 모드는 본질적으로 더 자동화됩니다. 이 모드는 제어되고 반복적인 방식으로 승인되고 검증된 가설을 실행하는 데 중점을 둡니다. 전용 카오스 파이프라인을 통해 개발 프로세스에서 자동화 및 통합을 사용하여 일관되고 반복 가능한 실험을 보장합니다.