以概率学来解释OLR(Ordinary Linear Regression):y = h(x) + e, 如果e是IID的同时服从高斯分布的话,则P(y|x;\theta) ~ N(h(x), \sigma^2),如下图所示:那么在样本分布独立的情况下,最终概率是各个样本概率的乘积,也就是似然估计。 LR采用MLE是因为如果用Euclidean distance作为损失函数得到的函数不是凸函数(non-convex),用gradient descent做优化有可能会得到局部最优而非全剧最优。 个人理解,有错误欢迎指正,图片来源于Andrew的机器学习课件。
点赞 3

相关推荐

能干的三文鱼刷了100道题:公司可能有弄嵌入式需要会画pcb的需求,而且pcb能快速直观看出一个人某方面的实力。看看是否有面试资格。问你问题也能ai出来,pcb这东西能作假概率不高
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务