AWS Resilience Hub 개념 - AWS 복원력 허브

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Resilience Hub 개념

이러한 개념은 애플리케이션 복원력을 개선하고 애플리케이션 중단을 방지하는 데 도움이 되는 AWS Resilience Hub의 접근 방식을 더 잘 이해하는 데 도움이 될 수 있습니다.

복원력

지정된 시간 내에 가용성을 유지하고 소프트웨어 및 운영 중단으로부터 복구할 수 있는 능력.

복구 시점 목표(RPO)

마지막 데이터 복구 시점 이후 허용되는 최대 시간입니다. 이에 따라 마지막 복구 시점과 서비스 중단 사이에 허용되는 데이터 손실로 간주되는 범위가 결정됩니다.

복구 시간 목표(RTO)

서비스 중단과 서비스 복원 사이의 허용 가능한 지연 시간입니다. 이는 서비스를 이용할 수 없을 때 허용 가능한 기간으로 간주되는 기간을 결정합니다.

예상 워크로드 복구 시간 목표

예상 워크로드 복구 시간 목표(추정 워크로드 RTO)는 가져온 애플리케이션 정의를 기반으로 애플리케이션이 충족한 다음 평가를 실행할 것으로 추정RTO되는 입니다.

예상 워크로드 복구 시점 목표

예상 워크로드 복구 시점 목표(추정 워크로드 RPO)는 가져온 애플리케이션 정의를 기반으로 애플리케이션이 충족한 다음 평가를 실행할 것으로 추정RPO되는 입니다.

애플리케이션

AWS Resilience Hub 애플리케이션은 복원력을 관리하기 위해 지속적으로 모니터링 및 평가되는 AWS 지원되는 리소스 모음입니다.

애플리케이션 구성 요소

단일 단위로 작동하고 실패하는 관련 AWS 리소스 그룹입니다. 예를 들어 기본 및 복제본 데이터베이스가 있는 경우 두 데이터베이스는 동일한 Application Component()에 속합니다AppComponent.

AWS Resilience Hub 는 어떤 AWS 리소스가 어떤 유형의 에 속할 수 있는지 결정합니다 AppComponent. 예를 들어 DBInstanceAWS::ResilienceHub::DatabaseAppComponent에 속할 수 있지만 AWS::ResilienceHub::ComputeAppComponent에는 속하지 않을 수 있습니다.

애플리케이션 규정 준수 상태

AWS Resilience Hub 는 애플리케이션에 대해 다음과 같은 규정 준수 상태 유형을 보고합니다.

정책 충족

애플리케이션은 정책에 정의된 RTO 및 RPO 대상을 충족하는 것으로 추정됩니다. 모든 구성 요소가 정의된 정책 목표를 충족합니다. 예를 들어, AWS 리전 간 중단에 대해 RTO 및 RPO 대상을 24시간으로 선택했습니다. AWS Resilience Hub 는 백업이 대체 리전으로 복사되었음을 확인할 수 있습니다. 백업 표준 운영 절차(SOP)에서 복구를 유지하고 테스트하고 시간을 정해야 합니다. 이는 운영 권장 사항에 있으며 전체 복원력 점수의 일부입니다.

정책 위반

애플리케이션이 정책에 정의된 RTO 및 RPO 대상을 충족하는 것으로 추정할 수 없습니다. 하나 이상의 이 정책 목표를 충족하지 AppComponents 않습니다. 예를 들어 AWS 리전 간 중단에 대해 RTO 및 RPO 대상을 24시간으로 선택했지만 데이터베이스 구성에는 글로벌 복제 및 백업 복사본과 같은 리전 간 복구 방법이 포함되지 않습니다.

평가되지 않음

애플리케이션은 평가가 필요합니다. 현재는 평가 또는 추적되지 않습니다.

변경 사항 감지됨

새로 게시된 애플리케이션 버전 중 아직 평가되지 않은 버전이 있습니다.

드리프트 감지

AWS Resilience Hub 는 애플리케이션에 대한 평가를 실행하는 동안 드리프트 알림을 실행하여 AppComponent 구성 변경 사항이 애플리케이션의 규정 준수 상태에 영향을 미쳤는지 확인합니다. 또한 애플리케이션의 입력 소스 내에서 리소스 추가 또는 삭제와 같은 변경 사항을 확인하고 감지하며 이에 대해 알립니다. 비교를 위해 는 애플리케이션 구성 요소가 정책을 충족한 이전 평가를 AWS Resilience Hub 사용합니다. 는 다음 유형의 드리프트를 AWS Resilience Hub 감지합니다.

  • 애플리케이션 정책 드리프트 - 이 드리프트 유형은 이전 평가에서 정책을 준수했지만 현재 평가를 준수하지 못한 모든 AppComponents 를 식별합니다.

  • 애플리케이션 리소스 드리프트 - 이 드리프트 유형은 현재 애플리케이션 버전의 모든 드리프트 리소스를 식별합니다.

복원력 평가

AWS Resilience Hub 는 격차 및 잠재적 해결 방법 목록을 사용하여 선택한 정책의 효과를 측정하여 재해를 복구하고 계속합니다. 정책에 따른 각 애플리케이션 구성 요소 또는 애플리케이션 규정 준수 상태를 평가합니다. 이 보고서에는 비용 최적화 권장 사항 및 잠재적 문제에 대한 참조가 포함됩니다.

복원력 점수

AWS Resilience Hub 는 애플리케이션이 애플리케이션의 복원력 정책, 경보, 표준 운영 절차(SOPs) 및 테스트를 충족하기 위한 권장 사항을 얼마나 잘 따르는지 나타내는 점수를 생성합니다.

중단 유형

AWS Resilience Hub 는 다음 유형의 중단에 대한 복원력을 평가하는 데 도움이 됩니다.

애플리케이션

인프라는 정상이지만 애플리케이션 또는 소프트웨어 스택이 필요에 따라 작동하지 않습니다. 이는 새 코드 배포, 구성 변경, 데이터 손상 또는 다운스트림 의존성 오작동 이후에 발생할 수 있습니다.

클라우드 인프라

운영 중단으로 인해 클라우드 인프라가 예상대로 작동하지 않습니다. 하나 이상의 구성 요소의 로컬 오류로 인해 운영 중단이 발생할 수 있습니다. 대부분의 경우 이러한 유형의 운영 중단은 결함이 있는 구성 요소를 재부팅하거나 재활용하거나 다시 로드하면 해결됩니다.

클라우드 인프라 AZ 중단

하나 이상의 가용 영역을 사용할 수 없습니다. 이러한 유형의 중단은 다른 가용 영역으로 전환하여 해결할 수 있습니다.

클라우드 인프라 리전 사고

하나 이상의 리전을 사용할 수 없습니다. 이러한 유형의 사고는 다른 AWS 리전로 전환하여 해결할 수 있습니다.

오류 주입 실험

AWS Resilience Hub 에서는 다양한 유형의 중단에 대해 애플리케이션 복원력을 확인하는 테스트를 권장합니다. 이러한 운영 중단에는 애플리케이션, 인프라, 가용 영역(AZ) 또는 애플리케이션 구성 요소 AWS 리전 사고가 포함됩니다.

이러한 실험을 통해 다음을 지원합니다.

  • 오류를 주입합니다.

  • 경보가 운영 중단을 감지할 수 있는지 확인합니다.

  • 복구 절차 또는 표준 운영 절차(SOPs)가 올바르게 작동하여 중단에서 애플리케이션을 복구하는지 확인합니다.

SOPs 예상 워크로드 RTO 및 예상 워크로드 측정 테스트. RPO 다양한 애플리케이션 구성을 테스트하고 출력 RTO 및 가 정책에 정의된 목표를 RPO 충족하는지 측정할 수 있습니다.

SOP

표준 운영 절차(SOP)는 중단 또는 경보 발생 시 애플리케이션을 효율적으로 복구하도록 설계된 일련의 규범적 단계입니다. 애플리케이션 평가를 기반으로 는 일련의 를 AWS Resilience Hub 권장SOPs하며, 시기 적절한 복구를 위해 중단 SOPs 전에 준비, 테스트 및 측정하는 것이 좋습니다.