Cómo calcula Evidently los resultados - Amazon CloudWatch

Cómo calcula Evidently los resultados

Puede utilizar las pruebas A/B de Amazon CloudWatch Evidently como herramienta para la toma de decisiones basada en datos. En una prueba A/B, los usuarios se asignan aleatoriamente al grupo de control (también denominado variación predeterminada) o a uno de los grupos de tratamiento (también denominados variaciones analizadas). Por ejemplo, los usuarios del grupo de control pueden experimentar el sitio web, el servicio o la aplicación de la misma manera que antes de que comenzara el experimento. Mientras tanto, es posible que los usuarios del grupo de tratamiento experimenten el cambio.

CloudWatch Evidently admite hasta cinco variaciones diferentes en un experimento. Evidently asigna tráfico de forma aleatoria a estas variaciones. De esta forma, puede hacer un seguimiento de las métricas empresariales (como los ingresos) y las métricas de rendimiento (como la latencia) de cada grupo. Evidently hace lo siguiente:

  • Compara el tratamiento con el control. (Por ejemplo, compara si los ingresos aumentan o disminuyen con un nuevo proceso de pago).

  • Indica si la diferencia observada entre el tratamiento y el control es significativa. Para ello, Evidently ofrece dos enfoques: niveles de importancia frecuentistas y probabilidades bayesianas.

¿Por qué usar enfoques frecuentistas y bayesianos?

Piense en un caso en el que el tratamiento no tenga efecto en comparación con el control o un caso en el que el tratamiento sea idéntico al control (una prueba A/A). Aun así, observaría una pequeña diferencia entre el tratamiento y el control en los datos. Esto se debe a que los participantes de la prueba consisten en una muestra finita de usuarios, que representa un pequeño porcentaje de todos los usuarios del sitio web, el servicio o la aplicación. Los niveles de importancia frecuentistas y las probabilidades bayesianas proporcionan información sobre si la diferencia observada es significativa o se debe al azar.

Evidently considera lo siguiente para determinar si la diferencia observada es significativa:

  • El tamaño de la diferencia

  • El número de muestras que forman parte de la prueba

  • La forma de distribución de los datos

Análisis frecuentista en Evidently

Evidently utiliza pruebas secuenciales, lo que evita los problemas habituales de los vistazos, un error común de las estadísticas frecuentistas. Los vistazos son la práctica de comprobar los resultados de una prueba A/B en curso para detenerla y tomar una decisión basada en los resultados observados. Para obtener más información sobre las pruebas secuenciales, consulte Time-uniform, nonparametric, nonasymptotic confidence sequences (Secuencias de confianza no asintóticas, no paramétricas y uniformes en el tiempo) de Howard et al. (Ann. Statist. 49 (2) 1055 - 1080, 2021).

Dado que los resultados de Evidently son válidos en cualquier momento (resultados válidos en cualquier momento), puede echar un vistazo a los resultados durante el experimento y aun así sacar conclusiones sólidas. Esto puede reducir algunos de los costos de la experimentación, ya que puede detener un experimento antes de la hora programada si los resultados ya son significativos.

Evidently genera niveles de importancia válidos en cualquier momento e intervalos de confianza del 95 % válidos en cualquier momento de la diferencia entre la variación probada y la variación por defecto en la métrica objetivo. La columna Result (Resultado) del experimento indica el rendimiento de la variación probada, que puede ser uno de los siguientes:

  • Inconclusive (No concluyente): el nivel de importancia es inferior al 95 %.

  • Better (Mejor): el nivel de importancia es del 95 % o superior y se cumple una de las condiciones siguientes:

    • El límite inferior del intervalo de confianza del 95 % es superior a cero y la métrica debería aumentar.

    • El límite superior del intervalo de confianza del 95 % es inferior a cero y la métrica debería disminuir.

  • Worse (Peor): el nivel de importancia es del 95 % o superior y se cumple una de las condiciones siguientes:

    • El límite superior del intervalo de confianza del 95 % es superior a cero y la métrica debería aumentar.

    • El límite inferior del intervalo de confianza del 95 % es inferior a cero y la métrica debería disminuir.

  • Best (Óptimo): el experimento tiene dos o más variaciones probadas además de la variación predeterminada y se cumplen las siguientes condiciones:

    • La variación cumple las condiciones para la designación Better (Mejor)

    • Se cumple una de las siguientes condiciones:

      • El límite inferior del intervalo de confianza del 95 % es mayor que el límite superior de los intervalos de confianza del 95 % de todas las demás variaciones y la métrica debería aumentar

      • El límite superior del intervalo de confianza del 95 % es menor que el límite inferior de los intervalos de confianza del 95 % de todas las demás variaciones y la métrica debe disminuir

Análisis bayesiano en Evidently

Con el análisis bayesiano, puede calcular la probabilidad de que la media de la variación probada sea mayor o menor que la media de la variación predeterminada. Evidently lleva a cabo la inferencia bayesiana para la media de la métrica objetivo mediante distribuciones a priori de conjugados. Con las distribuciones a priori de conjugados, Evidently puede inferir de manera más eficiente la distribución posterior necesaria para el análisis bayesiano.

Evidently espera hasta la fecha de finalización del experimento para calcular los resultados del análisis bayesiano. En la página de resultados se muestra la siguiente información:

  • probability of increase (probabilidad de aumento): la probabilidad de que la media de la métrica en la variación probada sea al menos un 3 % mayor que la media de la variación predeterminada

  • probability of decrease (probabilidad de disminución): la probabilidad de que la media de la métrica en la variación probada sea al menos un 3 % menor que la media de la variación predeterminada

  • probability of no change (probabilidad de que no haya ningún cambio): la probabilidad de que la media de la métrica en la variación probada esté en un ±3 % de la media de la variación predeterminada

La columna Result (Resultado) indica el rendimiento de la variación probada y puede ser uno de los siguientes:

  • Better (Mejor): la probabilidad de aumento es de al menos el 90 % y la métrica debería aumentar, o la probabilidad de disminución es de al menos el 90 % y la métrica debería disminuir

  • Worse (Peor): la probabilidad de disminución es de al menos el 90 % y la métrica debe aumentar, o la probabilidad de aumento es de al menos el 90 % y la métrica debe disminuir