Divergenza Kullback-Leibler (KL) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Divergenza Kullback-Leibler (KL)

La divergenza Kullback-Leibler (KL) misura in che misura la distribuzione delle etichette osservate del facet a, Pa(y), diverge dalla distribuzione del facet d, Pd(y). È anche nota come entropia relativa di Pa(y) rispetto a Pd(y) e quantifica la quantità di informazioni perse quando si passa da Pa(y) a Pd(y).

La formula per la divergenza Kullback-Leibler è la seguente:

        KL(Pa || Pd) = ∑yPa(y)*log[Pa(y)/Pd(y)]

È l'aspettativa della differenza logaritmica tra le probabilità Pa(y) e Pd(y), dove l'aspettativa è ponderata dalle probabilità Pa(y). Questa non è una distanza reale tra le distribuzioni in quanto è asimmetrica e non soddisfa la disuguaglianza triangolare. L'attuazione utilizza logaritmi naturali, fornendo KL in unità di nat. L'uso di basi logaritmiche diverse fornisce risultati proporzionali ma in unità diverse. Ad esempio, utilizzando la base 2 si ottiene KL in unità di bit.

Ad esempio, supponiamo che un gruppo di richiedenti prestiti abbia un tasso di approvazione del 30% (facet d) e che il tasso di approvazione per gli altri richiedenti (facet a) sia dell'80%. La formula Kullback-Leibler fornisce la divergenza di distribuzione delle etichette tra il facet a e il facet d nel modo seguente:

        KL = 0,8*ln(0,8/0,3) + 0,2*ln(0,2/0,7) = 0,53

La formula contiene due termini perché in questo esempio le etichette sono binarie. Questa misura può essere applicata a più etichette oltre a quelle binarie. Ad esempio, in uno scenario di ammissione all'università, supponiamo che a un candidato possa essere assegnata una delle tre etichette di categoria: yi = {y0, y1, y2} = {rifiutato, in lista d'attesa, accettato}.

L'intervallo di valori per la metrica KS per esiti binari, multicategoria e continui è [0, +∞).

  • I valori vicini allo zero indicano che gli esiti sono distribuiti in modo simile per i diversi facet.

  • I valori positivi indicano che le distribuzioni delle etichette divergono, più sono positivi e maggiore è la divergenza.