算法面试高频知识点:KL散度解析(全网最详细)

图片说明

KL散度(Kullback-Leibler divergence),可以以称作相对熵(relative entropy)或信息散度(information divergence)。KL散度的理论意义在于度量两个概率分布之间的差异程度,当KL散度越大的时候,说明两者的差异程度越大;而当KL散度小的时候,则说明两者的差异程度小。如果两者相同的话,则该KL散度应该为0。

接下来我们举一个具体的🌰:

我们设定两个概率分布分别为,在设定为连续随机变量的前提下,他们对应的概率密度函数分别为。如果我们用去近似,则KL散度可以表示为:

从上面的公式可以看出,当且仅当时,。此外我们可以知道KL散度具备非负性,即。并且从公式中我们也发现,KL散度不具备对称性,也就是说对于的KL散度并不等于对于的KL散度。因此,KL散度并不是一个度量(metric),即KL散度并非距离

我们再来看看离散的情况下用去近似的KL散度的公式:

接下来我们对上面的式子进行展开:

最后得到的第一项称作的交叉熵(cross entropy),后面一项就是熵。

在信息论中,熵代表着信息量,代表着基于分布自身的编码长度,也就是最优的编码长度(最小字节数)。而则代表着用的分布去近似分布的信息,自然需要更多的编码长度。并且两个分布差异越大,需要的编码长度越大。所以两个值相减是大于等于0的一个值,代表冗余的编码长度,也就是两个分布差异的程度。所以KL散度在信息论中还可以称为相对熵(relative entropy)

对深度学习中的生成模型来说,我们希望最小化真实数据分布与生成数据分布之间的KL散度,从而使得生成数据尽可能接近真实数据的分布。在实际场景中,我们是几乎不可能知道真实数据分布的,我们使用训练数据形成的生成分布在逼近

#秋招##实习##面经##面试八股文##面霸的自我修养#
全部评论
讲的真好
点赞 回复 分享
发布于 2022-09-14 18:45 贵州
之前试着学机器学习,发现和算法都是一样的难啊
点赞 回复 分享
发布于 2022-08-21 21:07 陕西

相关推荐

用微笑面对困难:只要你保证项目和获奖都是真的就行尤其是“对战,总负责人”啊这些套职,基本上队员,打杂的都这么写
点赞 评论 收藏
分享
评论
5
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务