Distância de variação total (TVD) - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Distância de variação total (TVD)

A métrica de polarização de dados de distância de variação total (TVD) é metade da 1 norma L. A TVD é a maior diferença possível entre as distribuições de probabilidade para resultados de rótulos das facetas a e d. A 1 norma L é a distância de Hamming, uma métrica usada para comparar duas strings de dados binários determinando o número mínimo de substituições necessárias para alterar uma sequência para outra. Se as strings fossem cópias umas das outras, isso determinaria a quantidade de erros que ocorreram durante a cópia. No contexto de detecção de viés, TVD quantifica quantos resultados na faceta a precisariam ser alterados para corresponder aos resultados na faceta d.

A fórmula para a distância de variação total é a seguinte:

        TVD= ½ * L 1 (Pa, Pd)

Por exemplo, suponha que você tenha uma distribuição de resultados com três categorias, yi = {y0, y1, y2} = {aceito, na lista de espera, rejeitado} em um cenário multicategórico de admissões em faculdades. Você TVD calcula as diferenças entre as contagens das facetas a e d para cada resultado. O resultado é o seguinte:

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

Em que:

  • Númeroa(i) é o número dos resultados da iésima categoria na faceta a: por exemplo, na(0) é o número de aceitações da faceta a.

  • nd(i) é o número dos resultados da iésima categoria na faceta d: por exemplo, nd(2) é o número de rejeições da faceta d.

    O intervalo de TVD valores para resultados binários, multicategoriais e contínuos é [0, 1), onde:

    • Valores próximos de zero significam que os rótulos estão distribuídos de forma semelhante.

    • Valores positivos significam que as distribuições dos rótulos divergem; quanto mais positivas, maior a divergência.