《深度学习入门》第4章-神经网络的学习

一、从数据中学习

神经网络的学习,是指从训练数据中自动获取最优权重参数的过程,学习的目的以损失函数为基准,找出能使它的值达到最小的权重参数,为了找出尽可能小的损失函数的值,本章介绍了利用函数斜率的梯度法。

二、损失函数

损失函数(loss function)是用来估量你模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函数,通常使用L(Y, f(x))来表示,损失函数越小,模型的鲁棒性就越好。损失函数是经验风险函数的核心部分,也是结构风险函数重要组成部分。模型的结构风险函数包括了经验风险项和正则项,通常可以表示成如下式子:
图片说明

其中,前面的均值函数表示的是经验风险函数,L代表的是损失函数,后面的Φ是正则化项(regularizer)或者叫惩罚项(penalty term),它可以是L1,也可以是L2,或者其他的正则函数。整个式子表示的意思是找到使目标函数最小时的θ值。下面主要列出几种常见的损失函数。

1、对数损失函数
Log损失函数的标准形式:
图片说明

损失函数L(Y, P(Y|X))表达的是样本X在分类Y的情况下,使概率P(Y|X)达到最大值(换言之,就是利用已知的样本分布,找到最有可能(即最大概率)导致这种分布的参数值;或者说什么样的参数才能使我们观测到目前这组数据的概率最大)。因为log函数是单调递增的,所以logP(Y|X)也会达到最大值,因此在前面加上负号之后,最大化P(Y|X)就等价于最小化L了。

2、平方损失函数
平方损失(Square loss)的标准形式如下:
图片说明

Y-f(X)表示的是残差,整个式子表示的是残差的平方和,而我们的目的就是最小化这个目标函数值(注:该式子未加入正则项),也就是最小化残差的平方和(residual sum of squares,RSS)。

而在实际应用中,通常会使用均方差(MSE)作为一项衡量指标,公式如下:
图片说明
3、指数损失函数
学过Adaboost算法的人都知道,它是前向分步加法算法的特例,是一个加和模型,损失函数就是指数函数。在Adaboost中,经过m此迭代之后,可以得到:
图片说明
Adaboost每次迭代时的目的是为了找到最小化下列式子时的参数α和G:
图片说明
而指数损失函数(exp-loss)的标准形式如下:
图片说明

三、数值微分

数值微分法是根据导数的原始定义:
图片说明
那么只要h hh取很小的数值,比如0.0001,那么我们可以很方便求解导数,并且可以对用户隐藏求解过程,用户只要给出目标函数和要求解的梯度的变量,程序可以自动给出相应的梯度,这也是某种意义上的“自动微分”😃。不幸的是,数值微分法计算量太大,求解速度是这四种方法中最慢的,更加雪上加霜的是,它引起的roundoff error和truncation error使其更加不具备实际应用场景,为了弥补缺点,便有如下center difference approximation:
图片说明
可惜并不能完全消除truncation error,只是将误差减小。虽然数值微分法有如上缺点,但是由于它实在是太简单实现了,于是很多时候,我们利用它来检验其他算法的正确性,比如在实现backprop的时候,我们用的"gradient check"就是利用数值微分法。

四、梯度

1、在训练机器学习模型寻找最优函数时,梯度下降(Gradient Descent)是最常用的优化(optimization)方法。在给定一组初始参数θ0θ0时,梯度下降算法能够顺着损失函数下降最快的方向逐步逼近最低点,也就是最佳参数θ∗θ∗的位置。
2、首先回顾一下梯度下降算法是如何工作的,我们的目标是找到θ∗θ∗:
θ∗=argminθL(θ)
其中LL是损失函数,梯度下降算法步骤如下:

随机选取一组初始参数θ0θ0。
计算损失函数在该点的偏导数∇L(θn−1)∇L(θn−1),也就是梯度。
更新参数θn=θn−1−η∇L(θn−1)θn=θn−1−η∇L(θn−1)。
重复2,3步骤,直至梯度不再下降(小于某个阈值范围)。
上面第3步中可以看到,每次我们顺着梯度的反方向更新θθ,其中ηη是学习速率,代表了每次更新的步伐大小。在只含有两个未知参数时,梯度下降的直观过程如下图:

五、小结

神经网络用训练数据进行学习,并用测试数据评价学习到的模型的泛化能力。神经网络的学习以损失函数为指标,更新权重参数,以使损失函数的值最小。利用某个给定的微小值的差分求导数的过程,称为数值微分。利用数值微分,可以计算权重函数的梯度。

#深度学习#
全部评论

相关推荐

感觉这一周太梦幻了,就像一个梦,很不真实~~~感觉这个暑期,我的运气占了99成,实力只有百分之一4.15上午 腾讯csig 腾讯云部门,面完秒进入复试状态4.16下午 美团优选供应链部门,4.18上午发二面4.17晚上 阿里国际一面,纯拷打,面完我都玉玉了4.18下午 阿里国际二面,是我们leader面的我,很轻松~~4.18晚上 约了hr面4.19上午 hr面,下午两点口头oc4.19晚上 意向书说起来我的暑期好像一次都没挂过~~~~~难道我是天生面试圣体?----------------------------------------------------------------------六个月前,我还是0项目0刷题,当时想的是先把论文发出来再去找实习。结果一次组会,老师打破了我的幻想(不让投B会,只让投刊或者A)我拿头投啊!!!然后就开始物色着找实习,顺便做完了mit的6.s081,但是基本上还是没刷过题目-----------------------------------------------------------------------11月  一次偶然的机会,面进了某个耳机厂的手环部门,大概是做嵌入式的,用的是CPP。12月 莫名其妙拿到了国创的面试机会,0基础四天速成java基础!居然也给我面过了hhhhh,可能是面试没写题吧入职国创后的几个月,一直没活,天天搁那看剧,都快忘了还有暑期实习这回事了~~~~命运的齿轮在2.26开始转动,因为这一天美团开了,我开始慌了,因为那时的我什么都不会。lc,八股,sql全部是0进度。然后就开始了女娲补天,上班刷题,下班继续做之前的开源,顺便学一学八股。3月到现在,lc也刷到快200了,一天最多提交了47次~~~~~~~~~~八股根据别人的面经总结和博客,写了快十万字的笔记~~~~~~~~~~简历上的实习经历和开源,也努力去深挖了,写了几万字的记录~~~~~~所以面试的时候,基本上都能cover了,面试官问到的基础基本都会,不基础的我就把他往我会的地方引。结果好像还不错,基本上每个面试官评价都挺好的emmmmmmmm
投递阿里巴巴等公司10个岗位
点赞 评论 收藏
转发
点赞 收藏 评论
分享
牛客网
牛客企业服务