A/B 테스트를 통한 추천 영향 측정 - Personalize

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

A/B 테스트를 통한 추천 영향 측정

A/B 테스트 수행은 여러 변형이 포함된 실험을 실행하고 결과를 비교하는 것으로 구성됩니다. Personalize 추천을 사용하여 A/B 테스트를 수행하려면 여러 사용자 그룹에 서로 다른 유형의 추천을 표시한 다음 결과를 비교해야 합니다. A/B 테스트를 사용하면 다양한 추천 전략을 비교 및 평가하고 추천의 영향을 측정할 수 있습니다.

예를 들어, A/B 테스트를 사용하여 Personalize 추천이 클릭률을 높이는지 확인할 수 있습니다. 이 시나리오를 테스트하기 위해 추천 제품과 같이 개인화되지 않은 사용자 추천을 한 그룹에 표시할 수 있습니다. 또한 Personalize에서 생성한 다른 그룹의 맞춤형 추천을 표시할 수도 있습니다. 고객이 품목과 상호작용하면서 결과를 기록하고 어떤 전략이 가장 높은 클릭률을 기록하는지 확인할 수 있습니다.

Personalize 추천을 사용하여 A/B 테스트를 수행하는 워크플로는 다음과 같습니다.

  1. 실험 계획 – 정량화 가능한 가설을 정의하고, 비즈니스 목표를 확인하고, 실험 변형을 정의하고, 실험 일정을 결정합니다.

  2. 사용자 나누기 – 사용자를 대조군과 하나 이상의 실험군으로 구성된 둘 이상의 그룹으로 나눕니다.

  3. 실험 실행 실험군의 사용자에게 수정된 추천을 보여줍니다. 대조군의 사용자에게 추천을 변경 내용이 없는 상태로 보여주세요. 추천과의 상호작용을 기록하여 결과를 추적하세요.

  4. 결과 평가 – 실험 결과를 분석하여 수정으로 인해 실험군에 통계적으로 유의한 차이가 발생했는지 확인합니다.

Amazon CloudWatch Evidenly를 사용하여 Amazon Personalize 권장 사항에 따라 A/B 테스트를 수행할 수 있습니다. CloudWatch Evively를 사용하면 실험을 정의하고, 핵심 성과 지표 (KPIs) 를 추적하고, 추천 요청 트래픽을 관련 Amazon Personalize 리소스로 라우팅하고, 실험 결과를 평가할 수 있습니다. 자세한 내용은 Evidly를 사용한 CloudWatch A/B 테스트 단원을 참조하십시오.

A/B 테스트 모범 사례

다음 모범 사례를 사용하면 Personalize 추천에 대한 A/B 테스트를 설계하고 유지 관리할 수 있습니다.

  • 정량화할 수 있는 비즈니스 목표를 확인하세요. 비교하려는 서로 다른 추천이 모두 이 비즈니스 목표와 일치하는지, 그리고 다르거나 정량화할 수 없는 목표와 관련이 없는지 확인하세요.

  • 비즈니스 목표에 부합하는 정량화 가능한 가설을 정의하세요. 예를 들어, 맞춤 제작 콘텐츠를 홍보하면 해당 항목에서 20% 이상 클릭이 늘어날 것이라고 예측할 수 있습니다. 가설에 따라 실험군에 적용할 수정이 결정됩니다.

  • 가설과 관련된 관련 핵심 성과 지표 (KPIs) 를 정의하십시오. 실험 결과를 측정하는 KPIs 데 사용합니다. 지표는 다음과 같을 수 있습니다.

    • 클릭률

    • 시청 시간

    • 총 가격

  • 실험의 총 사용자 수가 가설에 따라 통계적으로 유의한 결과에 도달하기에 충분히 큰지 확인하세요.

  • 실험을 시작하기 전에 트래픽 분할 전략을 정의하세요. 실험 진행 중에는 트래픽 분할을 변경하지 마세요.

  • 실험과 관련된 수정 사항(예: 모델)을 제외하고, 실험군과 대조군 모두에서 애플리케이션 또는 웹 사이트의 사용자 경험을 동일하게 유지하세요. UI나 지연 시간과 같은 사용자 경험의 변화가 잘못된 결과를 초래할 수 있습니다.

  • 휴일, 진행 중인 마케팅 캠페인, 브라우저 제한과 같은 외부 요인을 관리하세요. 이러한 외부 요인으로 인해 잘못된 결과가 나올 수 있습니다.

  • 가설 또는 비즈니스 요구 사항과 직접 관련이 없는 한 Personalize 추천을 변경하지 마세요. 필터 적용 또는 수동으로 주문 변경 등을 통한 변경은 잘못된 결과를 초래할 수 있습니다.

  • 결과를 평가할 때는 결론을 내리기 전에 결과가 통계적으로 유의한지 확인하세요. 업계 표준은 5% 유의 수준입니다.