Distance de variation totale (TVD) - Amazon SageMaker

Distance de variation totale (TVD)

La métrique de biais des données associée à la distance de variation totale (TVD) est la moitié de la norme L1. La TVD est la plus grande différence possible entre les distributions de probabilités pour les résultats d'étiquettes des facettes a et d. La norme L1 est la distance de Hamming, une métrique utilisée pour comparer deux chaînes de données binaires en déterminant le nombre minimum de substitutions nécessaires pour qu'une chaîne en devienne une autre. Si les chaînes devaient être des copies les unes des autres, la métrique détermine le nombre d'erreurs qui se sont produites lors de la copie. Dans le contexte de la détection de biais, la TVD quantifie le nombre de résultats qui devraient être modifiés dans la facette a pour correspondre aux résultats dans la facette d.

La formule pour la distance de variation totale est la suivante :

        TVD = ½*L1(Pa, Pd)

Supposons par exemple que vous avez une distribution de résultats avec trois catégories, yi = {y0, y1, y2} = {accepté, sur liste d'attente, rejeté} dans un scénario multicatégoriel d’admission à l'université. Pour calculer la TVD, vous prenez les différences entre les nombres des facettes a et d pour chaque résultat. Le résultat est le suivant :

        L1(Pa, Pd) = |na(0) - nd(0)| + |na(1) - nd(1)| + |na(2) - nd(2)|

Où :

  • na(i) est le nombre des résultats de la énième catégorie dans la facette a : par exemple na(0) est le nombre d'acceptations de la facette a.

  • nd(i) est le nombre des résultats de la énième catégorie dans la facette d : par exemple nd(2) est le nombre de rejets de la facette d.

    La plage de valeurs TVD pour les résultats binaires, multicatégoriels et continus est de [0, 1), où :

    • Les valeurs proches de zéro signifient que les distributions d'étiquettes sont similaires.

    • Les valeurs positives indiquent une divergence dans les distributions d'étiquettes, d'autant plus importante que le nombre de valeurs positives est élevé.