4단계: 작업 - AWS 규범적 지침

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

4단계: 작업

3단계: 평가 및 테스트를 완료하면 애플리케이션을 프로덕션에 배포할 준비가 된 것입니다. 운영 단계에서는 애플리케이션을 프로덕션에 배포하고 고객 경험을 관리합니다.  애플리케이션의 설계 및 구현에 따라 많은 복원력 결과가 결정되지만,이 단계에서는 시스템이 복원력을 유지 및 개선하는 데 사용하는 운영 관행에 중점을 둡니다. 운영 우수성 문화를 구축하면 이러한 관행에서 표준과 일관성을 만드는 데 도움이 됩니다.

관찰성

고객 경험을 이해하는 데 가장 중요한 부분은 모니터링과 경보를 사용하는 것입니다. 애플리케이션을 구성하여 상태를 이해해야 하며 다양한 관점이 필요합니다. 즉, 일반적으로 canary를 사용하여 서버 측과 클라이언트 측 모두에서 측정해야 합니다. 지표에는 애플리케이션의 종속성 및 장애 격리 경계에 맞는 차원과의 상호 작용에 대한 데이터가 포함되어야 합니다. 또한 애플리케이션에서 수행하는 모든 작업 단위에 대한 추가 세부 정보를 제공하는 로그를 생성해야 합니다. Amazon CloudWatch 임베디드 지표 형식과 같은 솔루션을 사용하여 지표와 로그를 결합하는 것을 고려할 수 있습니다. 항상 더 많은 관찰성을 원할 수 있으므로 원하는 수준의 계측을 구현하는 데 필요한 비용, 노력 및 복잡성 균형을 고려하세요.

다음 링크는 애플리케이션을 계측하고 경보를 생성하기 위한 모범 사례를 제공합니다.

이벤트 관리

경보(또는 더 나쁜 경우 고객)에서 문제가 발생하고 있다고 알릴 때 장애를 처리하기 위한 이벤트 관리 프로세스가 마련되어 있어야 합니다. 이 프로세스에는 대기 중인 운영자 참여, 문제 에스컬레이션, 인적 오류를 제거하는 데 도움이 되는 문제 해결에 대한 일관된 접근 방식을 위한 런북 수립이 포함되어야 합니다. 그러나 장애는 일반적으로 단독으로 발생하지 않습니다. 단일 애플리케이션은 장애에 의존하는 다른 여러 애플리케이션에 영향을 미칠 수 있습니다. 영향을 받는 모든 애플리케이션을 이해하고 한 번의 회의 통화로 여러 팀의 운영자를 한데 모아 문제를 신속하게 해결할 수 있습니다. 그러나 조직의 크기와 구조에 따라이 프로세스에 중앙 집중식 운영 팀이 필요할 수 있습니다.

이벤트 관리 프로세스를 설정하는 것 외에도 대시보드를 통해 지표를 정기적으로 검토해야 합니다. 정기 검토는 애플리케이션 성능의 고객 경험과 장기 추세를 이해하는 데 도움이 됩니다. 이를 통해 심각한 프로덕션 영향을 미치기 전에 문제와 병목 현상을 식별할 수 있습니다. 일관되고 표준화된 방식으로 지표를 검토하면 상당한 이점을 얻을 수 있지만 하향식 바이인과 시간 투자가 필요합니다.

다음 링크는 대시보드 구축 및 운영 지표 검토에 대한 모범 사례를 제공합니다.

지속적인 복원력

2단계: 설계 및 구현3단계: 평가 및 테스트 중에 애플리케이션을 프로덕션에 배포하기 전에 검토 및 테스트 활동을 시작했습니다. 운영 단계에서는 프로덕션 환경에서 이러한 활동을 계속 반복해야 합니다. AWS Well-Architected Framework 검토, 운영 준비 검토(ORRs) 및 복원력 분석 프레임워크를 통해 애플리케이션의 복원력 태세를 주기적으로 검토해야 합니다. 이렇게 하면 애플리케이션이 설정된 기준 및 표준에서 드리프트되지 않도록 하고 새 지침이나 업데이트된 지침을 최신 상태로 유지할 수 있습니다. 이러한 지속적인 복원력 활동은 이전에 예상치 못한 중단을 발견하고 새로운 완화 조치를 마련하는 데 도움이 됩니다.

또한 사전 프로덕션 환경에서 게임 데이카오스 엔지니어링 실험을 성공적으로 실행한 후 프로덕션 환경에서 실행하는 것도 고려할 수 있습니다. 게임 데이는 완화할 복원력 메커니즘을 구축한 알려진 이벤트를 시뮬레이션합니다. 예를 들어 게임 데이는 AWS 리전 서비스 장애를 시뮬레이션하고 다중 리전 장애 조치를 구현할 수 있습니다. 이러한 활동을 구현하려면 상당한 노력이 필요할 수 있지만 두 가지 방법 모두 시스템이 견딜 수 있도록 설계된 장애 모드에 복원력이 있다는 확신을 구축하는 데 도움이 됩니다.

애플리케이션을 운영하고, 운영 이벤트에 직면하고, 지표를 검토하고, 애플리케이션을 테스트하면 대응하고 배울 수 있는 많은 기회가 생깁니다.