모범 사례 11.4 - 주기적으로 복원력 테스트 수행 - SAP Lens

모범 사례 11.4 - 주기적으로 복원력 테스트 수행

소프트웨어 및 절차가 예측 가능한 결과를 제공함을 입증하기 위해 중대 장애 시나리오에 대해 주기적으로 복원력을 테스트합니다. 아키텍처, 소프트웨어 또는 지원 담당자에 대한 변경 사항을 평가하여 추가 테스트가 필요한지 여부를 결정합니다.

제안 사항 11.4.1 – 비즈니스 요구 사항을 기반으로 범위 내 중대 장애 시나리오를 정의

비즈니스 요구 사항에 맞춰 테스트할 수 있는 중대 장애 시나리오를 정의해야 합니다. 다음은 분석을 안내하는 데 사용할 수 있는 장애 시나리오의 예입니다. 시나리오의 세분 수준 및 적용 범위, 분류, 영향은 요구 사항 및 아키텍처에 따라 달라집니다.

장애 시나리오 예 상대적 발생 위험
계획/제어된 유지 관리 계획
리소스 고갈 또는 손상(높은 CPU 사용률/파일 시스템 가득 참/메모리 부족/스토리지 문제) 보통
분산형 무상태 구성 요소 장애(예: 웹 디스패처) 보통
분산형 상태 유지 구성 요소 장애(예: 애플리케이션 서버) 보통
단일 장애 지점(데이터베이스/SAP 중앙 서비스) 보통
AZ/네트워크 장애 낮음
핵심 서비스 장애(DNS/Amazon EFS/API 호출) 낮음/보통
손상/우발적 삭제/악의적 활동/잘못된 코드 배포 낮음
리전 장애 매우 낮음

제안 사항 11.4.2 – 중대 장애를 시뮬레이션하기 위한 일련의 테스트 사례를 정의

SAP 워크로드에 영향을 줄 수 있는 중대 장애 시나리오를 시뮬레이션할 수 있도록 전체 세트의 테스트가 정의되어 있어야 합니다.

일부 장애 시나리오의 경우 시뮬레이션이 발생할 수 있는 실제 장애를 완전히 나타내지 않을 수 있음을 인지해야 합니다. 예를 들어 하드웨어 문제를 시뮬레이션하기 위해 EC2 인스턴스에서 장애를 유발할 수는 없지만 Nitro 기반 인스턴스의 경우 커널 패닉을 생성하여 인스턴스를 재부팅시킬 수 있습니다.

또한 AWS Fault Injection Simulation 은 AWS 리소스에서 장애를 시뮬레이션하는 데 도움이 되도록 설계되었습니다.

제안 사항 11.4.3 – 각 테스트 사례의 예상 동작을 정의

테스트의 기준으로 사용할 예상 결과 세트를 문서화해야 합니다.

제안 사항 11.4.4 – 변경의 영향을 평가하기 위한 접근 방식 및 필요한 후속 테스트를 정의

변경이 환경에 미치는 영향을 평가하기 위한 접근 방식과 변경으로 인해 가용성 및 안정성에 대한 접근 방식이 무효화되지 않는지 확인하기 위해 해당 변경의 일부로 필요한 테스트가 정의되어 있어야 합니다. 이러한 변경 유형의 예로는 소프트웨어 업그레이드, 패치, 파라미터 변경이 있습니다.

제안 사항 11.4.5 – 테스트 일정을 정의

초기 구현, 변경 테스트, 주기적 환경 검증을 포함하는 테스트 일정을 수립해야 합니다.

제안 사항 11.4.6 – 테스트 결과를 검토

테스트 결과를 기반으로 테스트 사례, 구성 또는 아키텍처가 개선되었는지 식별합니다.

제안 사항 11.4.7 – 테스트 전 상태로 복귀하는 데 필요한 작업을 정의

각 테스트의 일부로 테스트 전 상태로 돌아가기 위해 필요한 작업을 정의해야 합니다. 이는 각 테스트 사례가 서로 격리되고 테스트가 프로덕션 시스템의 가용성 및 안정성에 영향을 미치지 않도록 하기 위한 것입니다.