Distância de variação total (TVD)

Modo de foco

Distância de variação total (TVD) - SageMaker IA da Amazon

A métrica de polarização de dados da distância de variação total (TVD) é metade da norma L₁. O TVD é a maior diferença possível entre as distribuições de probabilidade para resultados de rótulos das facetas a e d. A ₁ norma L é a distância de Hamming, uma métrica usada para comparar duas strings de dados binários determinando o número mínimo de substituições necessárias para alterar uma sequência para outra. Se as strings fossem cópias umas das outras, isso determinaria a quantidade de erros que ocorreram durante a cópia. No contexto de detecção de desvio, o TVD quantifica quantos resultados na faceta a precisariam ser alterados para corresponder aos resultados na faceta d.

A fórmula para a distância de variação total é a seguinte:

TVD = ½_*L₁(P_a, P_d)

Por exemplo, suponha que você tenha uma distribuição de resultados com três categorias, y_i = {y₀, y₁, y₂} = {aceito, na lista de espera, rejeitado} em um cenário multicategórico de admissões em faculdades. Você usa as diferenças entre as contagens das facetas a e d para cada resultado para calcular o TVD. O resultado é o seguinte:

Em que:

Número_a⁽ⁱ⁾ é o número dos resultados da i-ésima categoria na faceta a: por exemplo, n_a⁽⁰⁾ é o número de aceitações da faceta a.
n_d⁽ⁱ⁾ é o número dos resultados da i-ésima categoria na faceta d: por exemplo, n_d⁽²⁾ é o número de rejeições da faceta d.

O intervalo de valores de TVD para resultados binários, multicategóricos e contínuos é [0, 1), onde:
- Valores próximos de zero significam que os rótulos estão distribuídos de forma semelhante.
- Valores positivos significam que as distribuições dos rótulos divergem; quanto mais positivas, maior a divergência.