Divergenza Kullback-Leibler (KL)

La divergenza Kullback-Leibler (KL) misura in che misura la distribuzione delle etichette osservate del facet a, P_a(y), diverge dalla distribuzione del facet d, P_d(y). È anche nota come entropia relativa di P_a(y) rispetto a P_d(y) e quantifica la quantità di informazioni perse quando si passa da P_a(y) a P_d(y).

La formula per la divergenza Kullback-Leibler è la seguente:

KL(P_a || P_d) = ∑_yP_a(y)_*log[P_a(y)/P_d(y)]

È l'aspettativa della differenza logaritmica tra le probabilità P_a(y) e P_d(y), dove l'aspettativa è ponderata dalle probabilità P_a(y). Questa non è una distanza reale tra le distribuzioni in quanto è asimmetrica e non soddisfa la disuguaglianza triangolare. L'attuazione utilizza logaritmi naturali, fornendo KL in unità di nat. L'uso di basi logaritmiche diverse fornisce risultati proporzionali ma in unità diverse. Ad esempio, utilizzando la base 2 si ottiene KL in unità di bit.

Ad esempio, supponiamo che un gruppo di richiedenti prestiti abbia un tasso di approvazione del 30% (facet d) e che il tasso di approvazione per gli altri richiedenti (facet a) sia dell'80%. La formula Kullback-Leibler fornisce la divergenza di distribuzione delle etichette tra il facet a e il facet d nel modo seguente:

KL = 0,8*ln(0,8/0,3) + 0,2*ln(0,2/0,7) = 0,53

La formula contiene due termini perché in questo esempio le etichette sono binarie. Questa misura può essere applicata a più etichette oltre a quelle binarie. Ad esempio, in uno scenario di ammissione all'università, supponiamo che a un candidato possa essere assegnata una delle tre etichette di categoria: y_i = {y₀, y₁, y₂} = {rifiutato, in lista d'attesa, accettato}.

L'intervallo di valori per la metrica KS per esiti binari, multicategoria e continui è [0, +∞).

I valori vicini allo zero indicano che gli esiti sono distribuiti in modo simile per i diversi facet.
I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Squilibrio delle etichette (DPL)

Divergenza Jensen-Shannon (JS)