복원력을 위한 공동 책임 모델 - 안정성 원칙

복원력을 위한 공동 책임 모델

보안은 AWS와 고객이 책임을 나누어야 할 부분입니다. 복원력의 일부인 DR(재해 복구) 및 가용성이 이 공동 모델에서 어떻게 작동하는지 이해해야 합니다.

AWS 책임 - 클라우드 자체의 복원력

AWS는 AWS 클라우드에서 제공하는 모든 서비스가 실행되는 인프라의 복원력에 대한 책임이 있습니다. 이 인프라는 AWS 클라우드 서비스를 실행하는 하드웨어, 소프트웨어, 네트워킹 및 시설로 구성됩니다. AWS는 이러한 AWS 클라우드 서비스를 제공하기 위해 상업적으로 합당한 노력을 기울이며 서비스 가용성이 AWS 서비스 수준에 관한 계약(SLA)을 충족하거나 초과하도록 합니다.

AWS 글로벌 클라우드 인프라는 고객이 복원력이 뛰어난 워크로드 아키텍처를 구축할 수 있도록 설계되었습니다. 각 AWS 리전은 완전히 격리되어 있으며 물리적으로 격리된 인프라 파티션인 여러 가용 영역으로 구성됩니다. 가용 영역은 워크로드 복원력에 영향을 줄 수 있는 결함을 격리하여 리전의 다른 영역에 영향을 미치지 않도록 합니다. 그러나 동시에 AWS 리전의 모든 영역은 완전히 중복된 전용 메트로 섬유를 사용하여 고대역폭과 짧은 지연 시간의 네트워킹으로 상호 연결되어 있기 때문에 영역 간에 높은 처리량과 짧은 지연 시간을 제공합니다. 영역 간의 모든 트래픽은 암호화됩니다. 네트워크 성능은 영역 간에 동기식 복제를 수행하기에 충분합니다. 하나의 애플리케이션이 여러 AZ에 파티셔닝되어 있는 경우 정전, 번개, 토네이도, 허리케인 등의 문제로부터 애플리케이션을 더 효과적으로 격리하고 보호할 수 있습니다.

고객의 책임 - 클라우드 내부의 복원력

고객의 책임은 고객이 선택한 AWS 클라우드 서비스에 따라 결정됩니다. 서비스에 따라 복원력 책임의 일환으로서 고객이 수행해야 할 구성 작업의 양이 달라집니다. 예를 들어 Amazon Elastic Compute Cloud(Amazon EC2)와 같은 서비스를 사용하려면 고객이 필요한 모든 복원력 구성 및 관리 작업을 수행해야 합니다. Amazon EC2 인스턴스를 배포하는 고객은 여러 위치(예: AWS 가용 영역)에 Amazon EC2 인스턴스를 배포하고, Auto Scaling과 같은 서비스를 사용하여 자가 복구를 구현하고, 인스턴스에 설치된 애플리케이션에 대한 복원력이 뛰어난 워크로드 아키텍처 모범 사례를 사용할 책임이 있습니다. Amazon S3 및 Amazon DynamoDB와 같은 관리형 서비스의 경우 AWS는 인프라 계층, 운영 체제, 플랫폼을 작동하고, 고객은 엔드포인트에 액세스하여 데이터를 저장 및 검색합니다. 백업, 버전 관리 및 복제 전략을 포함하여 데이터의 복원력을 관리할 책임은 고객에게 있습니다.

AWS 리전의 여러 가용 영역에 워크로드를 배포하는 것은 하나의 가용 영역으로 문제를 격리하고 다른 가용 영역의 중복성을 사용하여 요청을 계속 처리하여 워크로드를 보호하도록 설계된 고가용성 전략의 일부입니다. 다중 AZ 아키텍처는 정전, 낙뢰, 토네이도, 지진 등과 같은 문제로부터 워크로드를 더 잘 격리하고 보호하도록 설계된 DR 전략의 일부이기도 합니다. DR 전략은 여러 AWS 리전을 사용할 수도 있습니다. 예를 들어 액티브/패시브 구성에서 액티브 리전이 더 이상 요청을 처리할 수 없는 경우 워크로드에 대한 서비스가 액티브 리전에서 DR 리전으로 장애 조치됩니다.

공동 복원력 모델을 보여주는 차트.

고객의 클라우드 내부 복원력에 대한 책임 및 AWS의 클라우드 자체 복원력에 대한 책임

AWS 서비스를 사용하여 복원력 목표를 달성할 수 있습니다. 고객은 클라우드에서 복원력을 달성하기 위해 시스템의 다음 측면을 관리할 책임이 있습니다. 특히 각 서비스에 대한 자세한 내용은 AWS 설명서를 참조하세요.

네트워킹, 할당량 및 제약 조건

  • 공동 책임 모델의 이 영역에 대한 모범 사례는 기초 페이지에 자세히 설명되어 있습니다.

  • 해당하는 경우 예상되는 로드 요청 증가를 기반으로 포함하는 서비스의 서비스 할당량 및 제약 조건을 이해하고 확장할 수 있는 충분한 공간이 있는 아키텍처를 계획합니다.

  • 네트워크 토폴로지를 고가용성, 중복성 및 확장성을 갖도록 설계합니다.

변경 관리 및 운영 복원력

  • 변경 관리에는 환경에서 변경을 도입하고 관리하는 방법이 포함됩니다. 변경 사항을 구현하려면 런북을 최신 상태로 유지하고 애플리케이션 및 인프라에 대한 배포 전략을 구축해야 합니다.

  • 워크로드 리소스를 모니터링하기 위한 복원력 전략은 기술 및 비즈니스 지표, 알림, 자동화 및 분석을 포함한 모든 구성 요소를 고려합니다.

  • 클라우드의 워크로드는 사용량의 손상 또는 변동에 대응하여 수요 확장의 변화에 적응해야 합니다.

관측성 및 장애 관리

워크로드 아키텍처

  • 워크로드 아키텍처에는 비즈니스 도메인을 중심으로 서비스를 설계하는 방법, 장애를 방지하기 위해 SOA 및 분산 시스템 설계를 적용하는 방법, 제한, 재시도, 대기열 관리, 시간 초과 및 비상 수단과 같은 기능을 구축하는 방법이 포함됩니다.

  • 입증된 AWS 솔루션, Amazon Builders Library서버리스 패턴을 활용하여 모범 사례에 맞춰 구현을 바로 시작할 수 있습니다.

  • 지속적인 개선을 통해 시스템을 분산 서비스로 분해하여 더 빠르게 확장하고 혁신합니다. AWS 마이크로서비스 지침 및 관리형 서비스 옵션을 사용하여 변화를 도입하고 혁신하는 능력을 단순화하고 가속화합니다.

중요 인프라에 대한 지속적인 테스트

  • 테스트 신뢰성은 기능, 성능 및 카오스 수준에서 테스트하는 것뿐만 아니라 잘 이해되지 않는 문제를 해결하는 전문성을 구축하기 위해 사고 분석 및 게임 데이 관행을 채택하는 것을 의미합니다.

  • 클라우드 올인 및 하이브리드 애플리케이션 모두에서 문제가 발생하거나 구성 요소가 다운될 때 애플리케이션이 어떻게 작동하는지 알면 중단으로부터 빠르고 안정적으로 복구할 수 있습니다.

  • 예상대로 작동하지 않을 때 시스템이 어떻게 작동하는지 이해하기 위해 반복 가능한 실험을 만들고 문서화합니다. 이러한 테스트는 전체 복원력의 효율성을 입증하고 실제 오류 시나리오에 직면하기 전에 운영 절차에 대한 피드백 루프를 제공합니다.