2022-08-24 00:24 北京科技大学算法工程师发布于浙江

关注

算法面试高频知识点：模型梯度爆炸和梯度消失的原因及解决方法

图片说明

梯度爆炸和梯度消失问题

一般在深层神经网络中，我们需要预防梯度爆炸和梯度消失的情况。

梯度消失（gradient vanishing problem）和梯度爆炸（gradient exploding problem）一般随着网络层数的增加会变得越来越明显。

例如下面所示的含有三个隐藏层的神经网络，梯度消失问题发生时，接近输出层的hiden layer3的权重更新比较正常，但是前面的hidden layer1的权重更新会变得很慢，导致前面的权重几乎不变，仍然接近初始化的权重，==这相当于hidden layer1没有学到任何东西，此时深层网络只有后面的几层网络在学习，而且网络在实际上也等价变成了浅层网络。==

在这里插入图片描述

那么产生这种现象的原因是什么呢？

我们来看看看反向传播的过程：

（假设网络每一层只有一个神经元，并且对于每一层 $y_{i} = \sigma(z_{i}) = \sigma(w_{i}x_{i} + b_{i})$ ）

在这里插入图片描述

可以推导出：

在这里插入图片描述

而sigmoid的导数 $\sigma^{'}(x)$ 如下图所示：

在这里插入图片描述

可以知道， $\sigma^{'}(x)$ 的最大值是 $\frac{1}{4}$ ，而我们初始化的权重 $|w|$ 通常都小于1，因此 $\sigma^{'}(x)|w| <= \frac{1}{4}$ ，而且链式求导层数非常多，不断相乘的话，最后的结果越来越小，趋向于0，就会出现梯度消失的情况。

梯度爆炸则相反， $\sigma^{'}(x)|w| > 1$ 时，不断相乘结果变得很大。

梯度爆炸和梯度消失问题都是因为网络太深，网络权重更新不稳定造成的，本质上是因为梯度方向传播的连乘效应。

梯度爆炸和梯度消失的解决方法

预训练加微调。
梯度截断。
使用ReLU、LeakyReLU等激活函数。
加BN层。
使用残差结构。

#秋招##实习##面经##面霸的自我修养##面试八股文#

全部评论

推荐最新楼层

猪猪也不容易

中国石化_技术部_计算机

点赞回复分享

发布于 2022-08-24 20:35 江苏

乌云遇皎月

广州大学后端工程师

每天来学习一下

点赞回复分享

发布于 2022-08-24 09:00 江苏

10-18 14:07

中山大学算法工程师

影石影像算法 2024面经

个人背景：一段大疆影像的实习，一篇CCF B类图像增强low level水文，本硕985。笔试（今年好像没有了）：两道题，一个小时限时，难度对标一道leetcode简单（签到题），一道leetcode中等（也不难）。不限制语言倒是，基本都可以ac。一面：自我介绍。分别介绍两个项目，并针对项目提出问题，如使用了GAN或diffusion就会问内容的保真度怎么做。没问八股。简历上写了docker，问了docker命令，问了几个linux命令和参数意思，问了pytorch的dp和ddp。反问环节。二面（组长面）：没有自我介绍，一上来就聊了下秋招进展，啥时候投递的秋招，有哪些offer这些内容，聊聊天...

秋招白月光

点赞评论收藏

分享

10-19 14:14

传音控股_技术运维工程师(准入职员工)

传音内推，传音内推码

笔面三个月真的超级快一转眼就过去了 真的还挺享受干到自己相对喜欢的工作的这段时间，每天都过的挺充实的，部门氛围很好，工作的时候都比较严谨，但也很欢乐 而且超级幸运的是一个部门的人都很nice，天天一起吃饭偶尔摸鱼聊天，现在还真的有一点舍不得 公司福利什么的感觉也蛮好的，健身房咖啡机微波炉冰箱什么的都有，每天下午都有下午茶，一般是水果，偶尔会有酸辣粉冰粉薯片辣条什么的，反正是完全饿不着 公司基本上早九晚六午休一小时45分钟（其实是五点四十五下班）不要求加班，偶尔加一加可以换调休，晚上也有宵夜，我在项目里的时候着急出结果会加一两天（我三个月也就加了几天 没有食堂，楼下有重邮食堂，还有一些别的小餐馆...

传音控股公司福利 301人发布

点赞评论收藏

分享

09-28 22:01

已编辑

广西科技大学 IT技术支持

毕业生求职

合适才能收到offe...：找桌面运维？

点赞评论收藏

分享

10-01 09:50

门头沟学院 Java

秋招遇见最感动的 hr

肖先生~：这个人真的很好，点赞

点赞评论收藏

分享

10-15 18:21

重庆理工大学行政经理

腾讯内推腾讯面经

欢迎大家投递哈，岗位多多，先到先得，感兴趣的话，腾讯全集团所有岗位都可以找我内推 热乎乎的内推码：EUTPZZRV 腾讯投递方式  腾讯坚持以人为本的管理理念，提供良好的职业发展环境和待遇政策，保障员工权益。 分享一些面经： 第一轮技术面  闭包作用及实际应用场景 HTTP/1.1、HTTP/2、HTTP/3的核心差异 实现红绿灯控制效果（异步时序逻辑） React Hooks的设计动机与类组件对比 浏览器事件代理原理及实际应用 手写Promise核心逻辑（包含resolve/reject） 数组去重与高频字符统计算法 Web安全防护措施（XSS、CSRF） 浏览器渲染流程与重排/重绘优化 跨...

点赞评论收藏

分享

评论

4

5

招聘动态

华泰证券

2026届Fintech校园招聘

联易融

2026届秋季校园招聘

杉川集团2026届校招

杉尖计划·与杉川一览群山

真格基金

被投企业秋季联合校招

瓴岳科技

2026届“登岳计划”校招启动

Garena

2026秋季校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的mentor是什么样的人？ #

8871次浏览 74人参与

# 毕业租房也有小确幸 #

139909次浏览 4488人参与

# 平安产险科技校招 #

2560次浏览 0人参与

# 帮我看看，领导说这话什么意思？ #

11035次浏览 66人参与

# 牛友的志愿填报指南 #

33035次浏览 172人参与

# 怎么给家人解释你的工作？ #

5152次浏览 45人参与

# 未岚大陆求职进展汇总 #

38739次浏览 119人参与

# 得物app工作体验 #

26635次浏览 56人参与

# 租房前辈的忠告 #

258591次浏览 7112人参与

# 26届秋招公司红黑榜 #

20928次浏览 74人参与

# 求职低谷期你是怎么度过的 #

8642次浏览 164人参与

# 你觉得mentor喜欢什么样的实习生 #

13911次浏览 367人参与

# 校招泡的最久的公司是哪家？ #

8352次浏览 46人参与

# 国企还是互联网，你怎么选？ #

166425次浏览 1149人参与

# 没有家庭托举的我是怎么找工作的 #

16289次浏览 195人参与

# 度小满求职进展汇总 #

11410次浏览 58人参与

# 从哪些方向判断这个offer值不值得去？ #

9481次浏览 110人参与

# 实习必须要去大厂吗？ #

148704次浏览 1551人参与

# 牛客树洞，我想对你说 #

3171次浏览 54人参与

# 投递几十家公司，到现在0offer，大家都一样吗 #

266901次浏览 1859人参与

# 面试紧张时你会有什么表现？ #

2433次浏览 23人参与

# 机械人的工作环境真的很差吗 #

25882次浏览 120人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务