AWS Clean Rooms Métricas de avaliação do modelo de ML - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Clean Rooms Métricas de avaliação do modelo de ML

O Clean Rooms ML calcula a pontuação de recall e relevância para determinar o desempenho do seu modelo. O Recall compara a semelhança entre os dados semelhantes e os dados de treinamento. A pontuação de relevância é usada para decidir o tamanho do público, não se o modelo tem um bom desempenho.

O recall é uma medida imparcial da semelhança do segmento semelhante com os dados de treinamento. O recall é a porcentagem dos usuários mais semelhantes (por padrão, os 20% mais semelhantes) de uma amostra dos dados de treinamento que são incluídos no público-alvo inicial pelo trabalho de geração de público. Os valores variam de 0 a 1. Valores maiores indicam um público melhor. Um valor de recall aproximadamente igual à porcentagem máxima do compartimento indica que o modelo de público é equivalente à seleção aleatória.

Consideramos essa uma métrica de avaliação melhor do que a exatidão, a precisão e as pontuações F1, porque o Clean Rooms ML não rotulou com precisão os verdadeiros usuários negativos ao criar seu modelo.

A pontuação de relevância no nível de segmento é uma medida de similaridade com valores que variam de -1 (menos semelhante) a 1 (mais semelhante). O Clean Rooms ML calcula um conjunto de pontuações de relevância para vários tamanhos de segmentos para ajudá-lo a determinar o melhor tamanho de segmento para seus dados. As pontuações de relevância diminuem monotonicamente à medida que o tamanho do segmento aumenta; portanto, à medida que o tamanho do segmento aumenta, ele pode ser menos semelhante aos dados iniciais. Quando a pontuação de relevância no nível do segmento atinge 0, o modelo prevê que todos os usuários no segmento de semelhanças são da mesma distribuição dos dados de seed. É provável que o aumento do tamanho da saída inclua usuários no segmento semelhante que não são da mesma distribuição dos dados iniciais.

As pontuações de relevância são normalizadas em uma única campanha e não devem ser usadas para comparação entre campanhas. As pontuações de relevância não devem ser usadas como uma evidência de fonte única para qualquer resultado comercial. Isso ocorre porque eles são afetados por vários fatores complexos, além da relevância, como qualidade do estoque, tipo de estoque e horário da publicidade.

As pontuações de relevância não devem ser usadas para avaliar a qualidade da semente, mas sim se ela pode ser aumentada ou diminuída. Considere os seguintes exemplos:

  • Todas as pontuações positivas: isso indica que há mais usuários de saída previstos como semelhantes do que os incluídos no segmento de semelhanças. Isso é comum em dados de sementes que fazem parte de um grande mercado, como todo mundo que comprou pasta de dente no mês passado. Recomendamos analisar dados de seed menores, como todos que compraram pasta de dente mais de uma vez no mês passado.

  • Todas as pontuações negativas ou negativas para o tamanho de segmento semelhante desejado — Isso indica que o Clean Rooms ML prevê que não há usuários semelhantes suficientes no tamanho de segmento semelhante desejado. Talvez os dados de seed sejam muito específicos ou o mercado seja muito pequeno. Recomendamos aplicar menos filtros aos dados de seed ou ampliar o mercado. Por exemplo, se os dados de seed originais fossem de clientes que compraram um carrinho de bebê e uma cadeirinha para carro, você poderia expandir o mercado para clientes que compraram vários produtos para bebês.

Os provedores de dados de treinamento determinam se as pontuações de relevância estão expostas e os compartimentos de bucket onde as pontuações de relevância são calculadas.