全部评论
MSE + sigmoid、交叉熵 + sigmoid配套。后者计算少1个sigmoid的导数项,梯度等于预测值和真实值差值乘以x,计算更方便,而且差值越大代表梯度越大,更新越快,符合物理意义;前者sigmoid导数取值范围为[0,1],计算复杂,而且可能出现梯度消失
交叉熵实际上是对输入数据的概率按照 p_i ^ y_i 的形式做了一个极大似然估计,取个log就是交叉熵的形式了。 而 mse 是假定误差服从高斯分布,简单来说是对 exp(|y - y'|**2) 进行极大似然估计,取个log得到平方损失的形式。
他们对于y的假设分布都不一样吧。。 交叉熵损失不是-loglikelyhood么,二分类问题的假设不是y服从伯努利分布么,那求极大似然不就可以推导出来CE了么。
其中一点是:你使用mse对分类任务时,梯度更新的时候是会涉及到sigmoid的计算,而你用交叉熵的话求梯度更新只涉及到真实值,预测值和x,计算就会实现简单方便
从梯度来理解
mse是假设误差服从高斯分布。。
理论上。实际上
相关推荐
点赞 评论 收藏
分享