二分类里为什么别用 MSE?面试版一图流总结

很多同学会问:sigmoid 输出是 0~1,标签也是 0/1,为什么不能直接上 MSE?

核心在梯度:
- BCE 对 z 的梯度是 y_hat - y(错得越离谱,梯度越大)
- MSE 多了 y_hat(1-y_hat),当预测接近 0/1 时梯度会被压扁

结果就是:模型最该被纠正的时候,反而学不动。
面试一句话:分类本质是概率建模,BCE 对应最大似然,训练稳定性显著好于 MSE。

#机器学习# #深度学习# #算法面试#
全部评论

相关推荐

xtu大迫杰:偶遇校友,祝校友offer打牌
点赞 评论 收藏
分享
03-03 23:12
已编辑
北京邮电大学 Java
书海为家:我来给一点点小建议,因为毕竟还在学校不像工作几年的老鸟有丰富的项目经验,面试官在面试在校生的时候更关注咱们同学的做事逻辑和思路,所以最好在简历中描述下自己做过项目的完整过程,比如需求怎么来的,你对需求的解读,你想到的解决办法,遇到困难如何找人求助,最终项目做成了什么程度,你从中收获了哪些技能,你有什么感悟。
你的简历改到第几版了
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务