AWS Clean Rooms Métricas de evaluación del modelo ML - AWS Clean Rooms

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

AWS Clean Rooms Métricas de evaluación del modelo ML

Clean Rooms ML calcula la puntuación de recordación y relevancia para determinar el rendimiento de su modelo. Recall compara la similitud entre los datos similares y los datos de entrenamiento. La puntuación de relevancia se utiliza para decidir qué tan grande debe ser la audiencia, no para determinar si el modelo tiene un buen rendimiento.

El recuerdo es una medida imparcial de la similitud del segmento similar con los datos de entrenamiento. El recuerdo es el porcentaje de usuarios más similares (de forma predeterminada, el 20% más similar) de una muestra de los datos de entrenamiento que se incluyen en la audiencia inicial según el trabajo de generación de audiencia. Los valores oscilan entre 0 y 1. Los valores más altos indican una mejor audiencia. Un valor de recuperación aproximadamente igual al porcentaje máximo de intervalo indica que el modelo de audiencia equivale a una selección aleatoria.

Consideramos que esta métrica de evaluación es mejor que la exactitud, la precisión y las puntuaciones de F1, ya que Clean Rooms ML no ha etiquetado con precisión a los usuarios que realmente son negativos al crear su modelo.

La puntuación de relevancia del segmento es una medida de similitud con valores que van desde -1 (menos similar) a 1 (más similar). Clean Rooms ML calcula un conjunto de puntuaciones de relevancia para varios tamaños de segmento a fin de ayudarle a determinar el mejor tamaño de segmento para sus datos. Las puntuaciones de relevancia disminuyen de forma monótona a medida que aumenta el tamaño del segmento; por lo tanto, a medida que aumenta el tamaño del segmento, puede ser menos similar a los datos iniciales. Cuando la puntuación de relevancia del segmento llega a 0, el modelo predice que todos los usuarios del segmento similar provienen de la misma distribución que los datos iniciales. Al aumentar el tamaño de la salida, es probable que los usuarios del segmento similar no pertenezcan a la misma distribución que los datos iniciales.

Las puntuaciones de relevancia se normalizan en una sola campaña y no se deben utilizar para comparar campañas diferentes. Las puntuaciones de relevancia no deben utilizarse como una fuente única de evidencia para ningún resultado empresarial. Esto se debe a que, además de la relevancia, influyen varios factores complejos, como la calidad del inventario, el tipo de inventario y el momento en que se publica la publicidad.

Las puntuaciones de relevancia no deben utilizarse para evaluar la calidad de la semilla, sino para determinar si se puede aumentar o disminuir. Considere los siguientes ejemplos:

  • Todas las puntuaciones son positivas: esto indica que hay más usuarios de salida que se consideran similares que los que se incluyen en el segmento similar. Esto es habitual en el caso de los datos sobre semillas que forman parte de un mercado grande, como el de todas las personas que han comprado pasta de dientes en el último mes. Le recomendamos que consulte los datos iniciales más pequeños, como los de todas las personas que han comprado pasta dental más de una vez en el último mes.

  • Todos los puntajes son negativos o negativos para el tamaño de segmento similar deseado: esto indica que Clean Rooms ML predice que no hay suficientes usuarios similares en el tamaño de segmento similar deseado. Esto se puede deber a que los datos iniciales son demasiado específicos o a que el mercado es demasiado pequeño. Recomendamos aplicar menos filtros a los datos iniciales o ampliar el mercado. Por ejemplo, si los datos iniciales originales eran clientes que habían comprado un cochecito y una silla de coche, podría ampliar el mercado a clientes que hayan comprado varios productos para bebés.

Los proveedores de datos de entrenamiento determinan si se exponen las puntuaciones de relevancia y cuáles son los contenedores de bucket en los que se calculan las puntuaciones de relevancia.