他们对于y的假设分布都不一样吧。。 交叉熵损失不是-loglikelyhood么,二分类问题的假设不是y服从伯努利分布么,那求极大似然不就可以推导出来CE了么。
点赞 评论

相关推荐

我就是0offer糕手:北大不乱杀
点赞 评论 收藏
分享
牛客网
牛客企业服务