Evidently에서 결과를 계산하는 방법 - Amazon CloudWatch

Evidently에서 결과를 계산하는 방법

Amazon CloudWatch Evidently A/B 테스트를 데이터 기반 의사 결정을 위한 도구로 사용할 수 있습니다. A/B 테스트에서 사용자는 대조군(기본 변형이라고도 함)이나 처리군 중 하나(테스트된 변형이라고도 함)에 무작위로 할당됩니다. 예를 들어, 대조군의 사용자는 실험이 시작되기 전과 동일한 방식으로 웹 사이트, 서비스 또는 애플리케이션을 경험할 수 있습니다. 한편, 처리군의 사용자는 변경 사항을 경험할 수 있습니다.

CloudWatch Evidently는 실험에서 최대 5개의 다른 변형을 지원합니다. Evidently는 이러한 변형에 트래픽을 무작위로 할당합니다. 이러한 방식으로 각 그룹의 비즈니스 지표(예: 수익)와 성능 지표(예: 대기 시간)을 추적할 수 있습니다. Evidently는 다음을 수행합니다.

  • 처리군을 대조군과 비교합니다. 예를 들어, 새로운 체크아웃 프로세스에 따른 수익 증가 또는 감소 여부를 비교합니다.

  • 처리군과 대조군 간에 관찰된 차이가 유의한지 여부를 나타냅니다. 이를 위해 Evidently는 빈도주의 유의 수준과 베이지안 확률의 두 가지 접근 방식을 제공합니다.

빈도주의 접근 방식과 베이지안 접근 방식을 사용하는 이유는 무엇인가요?

처리군이 대조군에 비해 효과가 없는 경우 또는 처리군이 대조군과 동일한 경우(A/A 테스트)를 고려하세요. 데이터에서 처리군과 대조군 사이의 작은 차이가 여전히 관찰됩니다. 이는 테스트 참가자가 웹 사이트, 서비스 또는 애플리케이션의 모든 사용자 중 작은 비율을 차지하는 유한한 사용자 표본으로 구성되기 때문입니다. 빈도주의 유의 수준과 베이지안 확률은 관찰된 차이가 유의한지 아니면 우연에 의한 것인지에 대한 인사이트를 제공합니다.

관찰된 차이가 유의한지 여부를 확인하기 위해 다음 사항을 분명히 고려합니다.

  • 차이의 정도

  • 테스트의 일부인 샘플의 수

  • 데이터 배포 상태

Evidently의 빈도주의 분석

Evidently는 빈도주의 통계의 일반적인 함정인 엿보기의 일반적인 문제를 피하는 순차 테스트를 사용합니다. 엿보기는 진행 중인 A/B 테스트의 결과를 확인하여 이를 중지하고 관찰된 결과를 기반으로 결정을 내리는 방식입니다. 순차 테스트에 대한 자세한 내용을 알아보려면 Project Euclid의 Time-uniform, nonparametric, nonasymptotic confidence sequences(시간 균일, 비모수, 비점근 신뢰 시퀀스)를 참조하세요. (인공신경망 통계. 49 (2) 1055 - 1080, 2021).

Evidently의 결과는 언제든지 유효하기 때문에(항상 유효한 결과) 실험 중에 결과를 엿보고 여전히 적절한 결론을 도출할 수 있습니다. 이렇게 하면 결과가 이미 유의미한 경우 예정된 시간 전에 실험을 중지할 수 있으므로 실험 비용을 일부 줄일 수 있습니다.

Evidently는 테스트된 변형과 대상 지표의 기본 변형 간 차이에 대해 항상 유효한 유의 수준과 항상 유효한 95% 신뢰 구간을 생성합니다. 실험 결과의 Result(결과) 열은 테스트된 변형 성능을 나타내며 다음 중 하나일 수 있습니다.

  • Inconclusive(미결정) – 유의 수준이 95% 미만입니다.

  • Better(좋음) – 유의 수준이 95% 이상이고 다음 중 하나가 참입니다.

    • 95% 신뢰 구간의 하한이 0보다 높으며 지표가 증가해야 합니다.

    • 95% 신뢰 구간의 상한이 0보다 낮으며 지표가 감소해야 합니다.

  • Worse(나쁨) – 유의 수준이 95% 이상이고 다음 중 하나가 참입니다.

    • 95% 신뢰 구간의 상한이 0보다 높으며 지표가 증가해야 합니다.

    • 95% 신뢰 구간의 하한이 0보다 낮으며 지표가 감소해야 합니다.

  • Best(최고) - 실험에는 기본 변형 외에 2개 이상의 테스트된 변형이 있으며 다음 조건이 충족됩니다.

    • 변형이 Better(좋음) 지정을 받을 자격이 있습니다.

    • 다음 중 하나가 참이어야 합니다.

      • 95% 신뢰 구간의 하한이 다른 모든 변형의 95% 신뢰 구간 상한보다 높으며 지표가 증가해야 합니다.

      • 95% 신뢰 구간의 상한이 다른 모든 변형의 95% 신뢰 구간 하한보다 낮으며 지표가 감소해야 합니다.

Evidently의 베이지안 분석

베이지안 분석을 사용하면 테스트된 변형의 평균이 기본 변형의 평균보다 크거나 작을 확률을 계산할 수 있습니다. Evidently는 켤레 사전 분포를 사용하여 대상 지표의 평균에 대한 베이지안 추론을 수행합니다. 켤레 사전 분포를 사용하면 베이지안 분석에 필요한 사후 분포를 보다 효율적으로 추론할 수 있습니다.

Evidently는 베이지안 분석 결과를 계산하기 위해 실험이 종료될 때까지 기다립니다. 결과 페이지에는 다음이 표시됩니다.

  • 증가 확률 – 테스트된 변형의 지표 평균이 기본 변형의 평균보다 3% 이상 클 확률

  • 감수 확률 – 테스트된 변형의 지표 평균이 기본 변형의 평균보다 3% 이상 작을 확률

  • 변화가 없을 확률 – 테스트된 변형의 지표 평균이 기본 변형에서 평균의 ±3% 내에 있을 확률

Result(결과) 열은 변형 성능을 나타내며 다음 중 하나일 수 있습니다.

  • Better(좋음) - 증가 확률이 90% 이상이고 지표가 증가해야 하거나 감소 확률이 90% 이상이고 지표가 감소해야 합니다.

  • Worse(나쁨) - 감소 확률이 90% 이상이고 지표가 증가해야 하거나 증가 확률이 90% 이상이고 지표가 감소해야 합니다.