Machine Learning 1st

  • 线性回归

    • 目的:回归的目的是通过几个已知数据来预测另一个数值型数据的目标值。

    • 假设特征和结果满足线性关系,即满足一个计算公式h(x),这个公式的自变量就是已知的数据x,函数值h(x)就是要预测的目标值。这一计算公式称为回归方程,得到这个方程的过程就称为回归。

    • 上述公式中的θ为参数,也称为权重,可以理解为x1和x2对h(x)的影响度。对这个公式稍作变化就是

      公式中θ和x都可以看成是向量,n是特征数量。

      假如我们依据这个公式来预测h(x),公式中的x是我们已知的(样本中的特征值),然而θ的取值却不知道,只要我们把θ的取值求解出来,我们就可以依据这个公式来做预测了。

  • 最小均方法(Least Mean squares)

    • 我们要做的是依据我们的训练集,选取最优的θ,在我们的训练集中让h(x)尽可能接近真实的值。h(x)和真实的值之间的差距,我们定义了一个函数来描述这个差距,这个函数称为损失函数,表达式:

      这里的这个损失函数就是著名的最小二乘损失函数,这里还涉及一个概念叫最小二乘法,这里不再展开了。我们要选择最优的θ,使得h(x)最近进真实值。这个问题就转化为求解最优的θ,使损失函数J(θ)取最小值。(损失函数还有其它很多种类型)

    • LMS是求取h(x)回归函数的理论依据,通过最小化均方误差来求最佳参数的方法。

  • 梯度下降

    • 我们要求解使得J(θ)最小的θ值,梯度下降算法大概的思路是:我们首先随便给θ一个初始化的值,然后改变θ值让J(θ)的取值变小,不断重复改变θ使J(θ)变小的过程直至J(θ)约等于最小值。

      首先我们给θ一个初始值,然后向着让J(θ)变化最大的方向更新θ的取值,如此迭代。

    • 公式中α称为步长(learning rate),它控制θ每次向J(θ)变小的方向迭代时的变化幅度。J(θ)对θ的偏导表示J(θ)变化最大的方向。由于求的是极小值,因此梯度方向是偏导数的反方向。

      • α取值太小收敛速度太慢,太大则可能会Overshoot the minimum。

      • 越接近最小值时,下降速度越慢

      • 收敛: 当前后两次迭代的差值小于某一值时,迭代结束

    • 求解一下这个偏导,过程如下:

    • 那么θ的迭代公式就变为

    • 上述表达式只针对样本数量只有一个的时候适用,那么当有m个样本值时该如何计算预测函数?批梯度下降算法和随机梯度下降算法

  • 批梯度下降算法(BGD)

    • 这种新的表达式每一步计算都需要全部训练集数据,所以称之为批梯度下降(batch gradient descent)。

    • 注意,梯度下降可能得到局部最优,但在优化问题里我们已经证明线性回归只有一个最优点,因为损失函数J(θ)是一个二次的凸函数,不会产生局部最优的情况。(假设学习步长α不是特别大)

    • 批梯度下降的算法执行过程

    • 大家仔细看批梯度下降的数学表达式,每次迭代的时候都要对所有数据集样本计算求和,计算量就会很大,尤其是训练数据集特别大的情况。那有没有计算量较小,而且效果也不错的方法呢?有!这就是:随机梯度下降(Stochastic Gradient Descent, SGD)

  • 随机梯度下降算法(SGD)

    • 随机梯度下降在计算下降最快的方向时时随机选一个数据进行计算,而不是扫描全部训练数据集,这样就加快了迭代速度。

      随机梯度下降并不是沿着J(θ)下降最快的方向收敛,而是震荡的方式趋向极小点。

    • 随机梯度下降表达式如下:

    • 执行过程如下图:

    • 批梯度下降和随机梯度下降在三维图上对比如下:

        

#笔试题目##机器学习#
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务