关注
残差网络可以缓解梯度消失,在论文中解释的很清楚啊。可以用如下公式解释: xl+1 = xl + F(xl, Wl) xl+2 = xl+1 + F(xl+1, Wl+1) 依次类推,可以得到第L层的输入为: 设损失函数为则: 从上式可以看出,从第L层到它之前的任意l层有两条传播路径,第一条传播路径不经过任何中间层,这对梯度消失起到了缓解作用。另外,在一个mini-batch中,一般来说,对于所有的样本都是-1的可能性不大。这就意味着即使所有的weights都取很小的值,梯度也不会消失。 至于为什么既然relu的梯度只有0和1,为什么还会梯度消失,可以举一个简单的例子。 假如f(x) = 0.1x,g(x)是relu函数。 x1 = g(f(x0)) x2 = g(f(x1)) 那么: x2 = g(f(g(f(x0)))) 假设这个复合函数中relu全部都在正半轴区域,即梯度为1的区域。我们会得到: 神经网络中不只relu这一种变换,其他的变换同样可以影响梯度值。故relu只是相对于其他激活函数可以缓解梯度消失,并不能消除。
查看原帖
7 2
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享
12-09 14:12
新乡学院 嵌入式软件开发
程序员花海:实习和校招简历正确格式应该是教育背景+实习+项目经历+个人评价 其中项目经历注意要体现业务 实习经历里面的业务更是要自圆其说 简历模板尽可能保持干净整洁 不要太花哨的 点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
更多
- 1... 工作半年后更确定:我们依然不欠优绩主义什么6257
- 2... 杂记近期所面试的三家中小厂5928
- 3... 岁末论道:谁才是牛客 2025 最强修仙者?4807
- 4... #牛客2025仙途报告#居然是五颗星3687
- 5... 仙途报告3060
- 6... 【2025-年终总结】25届毕业生果果牛这一年~2923
- 7... 圣诞节用 AI 做个牛客运营翻翻乐!(含代码)2816
- 8... 互联网实习求职的黑话和timeline,你所需要知道的……2781
- 9... 我只是一个脆弱的人2042
- 10... 一个程序员的自救书|从酒吧陪玩DM到上岸大厂1942
正在热议
更多
# 牛客2025仙途报告 #
6758次浏览 168人参与
# 礼物开箱Plog #
2141次浏览 95人参与
# 2025年终总结 #
181808次浏览 3086人参与
# 哪些行业值得去? #
14486次浏览 77人参与
# 职场新人体验 #
157093次浏览 1128人参与
# 工作两年,想和老板谈涨薪怎么说 #
38893次浏览 175人参与
# 你面试体验感最差/最好的公司 #
24337次浏览 413人参与
# 考公VS就业,你怎么选? #
88278次浏览 497人参与
# 今年你最想重开的一场面试是? #
7154次浏览 95人参与
# 秋招落幕,你是He or Be #
17568次浏览 318人参与
# 一人说一个提前实习的好处 #
16096次浏览 252人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
13785次浏览 130人参与
# 找工作,行业重要还是岗位重要? #
86066次浏览 1709人参与
# 重来一次,你会对开始求职的自己说 #
7525次浏览 205人参与
# 各大公司公布25年Q3财报,你怎么看? #
5081次浏览 50人参与
# 实习没事做是福还是祸? #
19933次浏览 312人参与
# 大家每天通勤多久? #
70793次浏览 472人参与
# 实习的内耗时刻 #
212114次浏览 1567人参与
# 工作中听到最受打击的一句话 #
9628次浏览 158人参与
# 机械制造秋招总结 #
97450次浏览 878人参与