A divergência de Kullback-Leibler (KL) mede o quanto a distribuição observada do rótulo da faceta a, Pa(y) diverge da distribuição da faceta d, Pd(y). Também é conhecida como entropia relativa de Pa(y) em relação a Pd(y) e quantifica a quantidade de informação perdida ao passar de Pa(y) para Pd(y).
A fórmula para a divergência de Kullback-Leibler é a seguinte:
KL(Pa || Pd) = ∑yPa(y)*log[Pa(y)/Pd(y)]
É a expectativa da diferença logarítmica entre as probabilidades Pa(y) e Pd(y), onde a expectativa é ponderada pelas probabilidades Pa(y). Essa não é uma distância real entre as distribuições, pois é assimétrica e não satisfaz a desigualdade triangular. A implementação usa logaritmos naturais, fornecendo KL em unidades de nats. O uso de bases logarítmicas diferentes fornece resultados proporcionais, mas em unidades diferentes. Por exemplo, usar a base 2 fornece KL em unidades de bits.
Por exemplo, suponha que um grupo de solicitantes de empréstimos tenha uma taxa de aprovação de 30% (faceta d) e que a taxa de aprovação de outros solicitantes (faceta a) seja de 80%. A fórmula de Kullback-Leibler fornece a divergência de distribuição de rótulos da faceta a da faceta d da seguinte forma:
KL = 0,8*ln(0,8/0,3) + 0,2*ln(0,2/0,7) = 0,53
Há dois termos na fórmula aqui porque os rótulos são binários neste exemplo. Essa medida pode ser aplicada a vários rótulos, além dos binários. Por exemplo, em um cenário de admissão em faculdades, suponha que um candidato possa receber um dos três rótulos de categoria: yi = {y0, y1, y2} = {rejeitado, em lista de espera, aceito}.
Intervalo de valores da métrica KS para resultados binários, multicategóricos e contínuos: [0, +∞).
-
Valores próximos de zero significam que os resultados são distribuídos de forma semelhante para as diferentes facetas.
-
Valores positivos significam que as distribuições dos rótulos divergem; quanto mais positivas, maior a divergência.