以概率学来解释OLR(Ordinary Linear Regression):y = h(x) + e, 如果e是IID的同时服从高斯分布的话,则P(y|x;\theta) ~ N(h(x), \sigma^2),如下图所示:那么在样本分布独立的情况下,最终概率是各个样本概率的乘积,也就是似然估计。 LR采用MLE是因为如果用Euclidean distance作为损失函数得到的函数不是凸函数(non-convex),用gradient descent做优化有可能会得到局部最优而非全剧最优。 个人理解,有错误欢迎指正,图片来源于Andrew的机器学习课件。
点赞 3

相关推荐

点赞 评论 收藏
转发
牛客网
牛客企业服务