Norme L_p (LP)

La norme L_p (LP) mesure la distance de la norme p entre les distributions de facettes des étiquettes observées dans un jeu de données d'entraînement. Cette métrique n'est pas négative et ne peut donc pas détecter le biais inverse.

La formule pour la norme L_p est la suivante :

L_p(P_a, P_d) = ( ∑_y||P_a - P_d||^p)^1/p

Lorsque la distance de la norme p entre les points x et y est définie comme suit :

L_p(x, y) = (|x₁-y₁|^p + |x₂-y₂|^p + … +|x_n-y_n|^p)^1/p

La norme 2 est la norme euclidienne. Supposons que vous avez une distribution de résultats avec trois catégories, par exemple, y_i = {y₀, y₁, y₂} = {accepté, sur liste d'attente, rejeté} dans un scénario multicatégoriel d'admission à l'université. Vous prenez la somme des carrés des différences entre les nombres de résultats pour les facettes a et d. La distance euclidienne obtenue est calculée de la manière suivante :

L₂(P_a, P_d) = [(n_a⁽⁰⁾ - n_d⁽⁰⁾)² + (n_a⁽¹⁾ - n_d⁽¹⁾)² + (n_a⁽²⁾ - n_d⁽²⁾)²]^1/2

Où :

n_a⁽ⁱ⁾ est le nombre des résultats de la énième catégorie dans la facette a : par exemple n_a⁽⁰⁾ est le nombre d'acceptations de la facette a.
n_d⁽ⁱ⁾ est le nombre des résultats de la énième catégorie dans la facette d : par exemple n_d⁽²⁾ est le nombre de rejets de la facette d.

La plage de valeurs JS pour les résultats binaires, multicatégoriels et continus est de [0, √2), où :
- Les valeurs proches de zéro signifient que les distributions d'étiquettes sont similaires.
- Les valeurs positives indiquent une divergence dans les distributions d'étiquettes, d'autant plus importante que le nombre de valeurs positives est élevé.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Divergence de Jensen-Shannon (JS)

Distance de variation totale (TVD)

Norme Lp (LP)

Norme L_p (LP)