残差网络可以缓解梯度消失,在论文中解释的很清楚啊。可以用如下公式解释: xl+1 = xl + F(xl, Wl) xl+2 = xl+1 + F(xl+1, Wl+1) 依次类推,可以得到第L层的输入为: 设损失函数为则: 从上式可以看出,从第L层到它之前的任意l层有两条传播路径,第一条传播路径不经过任何中间层,这对梯度消失起到了缓解作用。另外,在一个mini-batch中,一般来说,对于所有的样本都是-1的可能性不大。这就意味着即使所有的weights都取很小的值,梯度也不会消失。 至于为什么既然relu的梯度只有0和1,为什么还会梯度消失,可以举一个简单的例子。 假如f(x) = 0.1x,g(x)是relu函数。 x1 = g(f(x0)) x2 = g(f(x1)) 那么: x2 = g(f(g(f(x0)))) 假设这个复合函数中relu全部都在正半轴区域,即梯度为1的区域。我们会得到: 神经网络中不只relu这一种变换,其他的变换同样可以影响梯度值。故relu只是相对于其他激活函数可以缓解梯度消失,并不能消除。
7 2

相关推荐

程序员花海:实习和校招简历正确格式应该是教育背景+实习+项目经历+个人评价 其中项目经历注意要体现业务 实习经历里面的业务更是要自圆其说 简历模板尽可能保持干净整洁 不要太花哨的
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务