Divergence de Kullback-Leibler (KL) - Amazon SageMaker

Divergence de Kullback-Leibler (KL)

La divergence de Kullback-Leibler (KL) mesure l'ampleur de la divergence entre la distribution d'étiquettes observée pour la facette a, Pa(y) et la distribution pour la facette d, Pd(y). Elle est également connue sous le nom d'entropie relative de Pa(y) par rapport à Pd(y), et quantifie la quantité d'informations perdues lors du passage de Pa(y) à Pd(y).

La formule pour la divergence de Kullback-Leibler est la suivante :

        KL(Pa || Pd) = ∑yPa(y)*log[Pa(y)/Pd(y)]

C'est l'attente de la différence logarithmique entre les probabilités Pa(y) et Pd(y), lorsque l'attente est pondérée par les probabilités Pa(y). Elle n'indique pas une vraie distance entre les distributions, car elle est asymétrique et ne satisfait pas l'inégalité du triangle. La mise en œuvre utilise des logarithmes naturels et exprime la divergence de KL en unités de nats. L'utilisation de différentes bases logarithmiques donne des résultats proportionnels mais dans des unités différentes. Par exemple, l'utilisation d'une base 2 donne KL en unités de bits.

Par exemple, supposons qu'un groupe de demandeurs de prêts a un taux d'approbation de 30 % (facette d) et que le taux d'approbation pour les autres demandeurs (facette a) est de 80 %. La formule de Kullback-Leibler indique la divergence de distribution des étiquettes de la facette a par rapport à la facette d :

        KL = 0,8*ln (0,8/0,3) + 0,2*ln (0,2/0,7) = 0,53

Ici, il y a deux termes dans la formule, car l'exemple cite des étiquettes binaires. Cette mesure peut être appliquée à plusieurs autres étiquettes en plus des étiquettes binaires. Par exemple, dans un scénario d'admission à l'université, supposons qu'un candidat puisse se voir attribuer l'une des trois catégories d'étiquettes suivantes : yi = {y0, y1, y2} = {rejeté, sur liste d'attente, accepté}.

La plage de valeurs de la métrique KL pour les résultats binaires, multicatégoriels et continus est de [0, +∞).

  • Les valeurs proches de zéro signifient une distribution similaire des résultats pour les différentes facettes.

  • Les valeurs positives indiquent une divergence dans les distributions d'étiquettes, d'autant plus importante que le nombre de valeurs positives est élevé.