首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
请你说说各个激活函数的优缺点,sigmoid relu le
[问答题]
请你说说各个激活函数的优缺点,sigmoid relu leakly relu tanh,以及解释下梯度消失
添加笔记
邀请回答
收藏(2)
分享
纠错
4个回答
添加回答
0
推荐
可乐加冰upuppp
这些都是常见的激活函数,关键作用都是给模型引入非线性。
Sigmoid
优点 :
Sigmoid 函数的输出范围是 0 到 1,所有可以理解为它对每个神经元的输出进行了归一化,也即有了概率的意义。(很适合分类模型)
缺点 :
在输出值过大或者过小的情况下,容易梯度消失;
不是以0为中心,导致收敛速度下降;
Sigmoid 函数执行指数运算,计算机运行得较慢。
ReLU
优点 :
当输入为正时,不存在梯度饱和问题。
ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
缺点 :
如果输入负数,则梯度将完全为零,导致无法反向传播、更新节点,导致该神经元失效。
Tanh
优点 :
tanh 是一个双曲正切函数,可以由 sigmoid 函数变换而来,优点如下:
值域从[0, 1] 转换成[-1, 1], 以 0 为中心,加快了收敛速度。
可视化做个对比:
缺点 :
跟 sigmoid 类似
在输出值过大或者过小的情况下,容易梯度消失;
tanh 函数执行指数运算,计算机运行得较慢。
Leakly ReLU
优点 :
具有Relu函数的优点
解决了Relu的神经元死亡问题问,在负区域具有小的正斜率,因此即使对于负输入值,它也可以进行反向传播
缺点 :
斜率需要手动根据经验调整
梯度消失与梯度爆炸
梯度消失与梯度爆炸原理类似,可以一起说。
两种情况下梯度消失经常出现,原因主要是,在比较深的网络中,采用了不合适的损失函数,比如sigmoid,而梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。
延伸考点
解决梯度消失或者梯度爆炸的常用思路?
提示,把 sigmoid 激活函数替换成 leaky relu、引入 batch normalization、残差结构、梯度正则化等.
编辑于 2021-09-16 16:04:38
回复(0)
0
Gary96
链接:
https://www.nowcoder.com/questionTerminal/ca2edbdc29ee4ff9bba6e0cd802228f3?trackId=404_page
来源:牛客网
Sigmoid
优点 :
Sigmoid 函数的输出范围是 0 到 1,所有可以理解为它对每个神经元的输出进行了归一化,也即有了概率的意义。(很适合分类模型)
缺点 :
在输出值过大或者过小的情况下,容易梯度消失;
不是以0为中心,导致收敛速度下降;
Sigmoid 函数执行指数运算,计算机运行得较慢。
ReLU
优点 :
当输入为正时,不存在梯度饱和问题。
ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
缺点 :
如果输入负数,则梯度将完全为零,导致无法反向传播、更新节点,导致该神经元失效。
发表于 2022-01-11 22:45:54
回复(0)
0
飞向宇宙
链接:
https://ac.nowcoder.com/questionTerminal/ca2edbdc29ee4ff9bba6e0cd802228f3?trackId=404_page
来源:牛客网
Sigmoid
优点 :
Sigmoid 函数的输出范围是 0 到 1,所有可以理解为它对每个神经元的输出进行了归一化,也即有了概率的意义。(很适合分类模型)
缺点 :
在输出值过大或者过小的情况下,容易梯度消失;
不是以0为中心,导致收敛速度下降;
Sigmoid 函数执行指数运算,计算机运行得较慢。
ReLU
优点 :
当输入为正时,不存在梯度饱和问题。
ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
缺点 :
如果输入负数,则梯度将完全为零,导致无法反向传播、更新节点,导致该神经元失效。
发表于 2021-10-24 16:47:16
回复(0)
0
Dexter_6
链接:
https://ac.nowcoder.com/questionTerminal/ca2edbdc29ee4ff9bba6e0cd802228f3?trackId=404_page
来源:牛客网
Sigmoid
优点 :
Sigmoid 函数的输出范围是 0 到 1,所有可以理解为它对每个神经元的输出进行了归一化,也即有了概率的意义。(很适合分类模型)
缺点 :
在输出值过大或者过小的情况下,容易梯度消失;
不是以0为中心,导致收敛速度下降;
Sigmoid 函数执行指数运算,计算机运行得较慢。
ReLU
优点 :
当输入为正时,不存在梯度饱和问题。
ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
缺点 :
如果输入负数,则梯度将完全为零,导致无法反向传播、更新节点,导致该神经元失效。
发表于 2021-10-24 16:14:50
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
上传者:
小小
难度:
4条回答
2收藏
1398浏览
热门推荐
相关试题
明明的随机数
数组
评论
(3693)
来自
华为研发工程师编程题
分页系统的逻辑地址结构是一维的,分...
操作系统
评论
(1)
关于分段系统与分页系统的区别,描述...
操作系统
评论
(1)
已知a
40
=...
京东
职能
2019
财务
保险
评论
(1)
有20000人的就餐需求,现建了一...
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题
Sigmoid
优点 :
Sigmoid 函数的输出范围是 0 到 1,所有可以理解为它对每个神经元的输出进行了归一化,也即有了概率的意义。(很适合分类模型)
缺点 :
在输出值过大或者过小的情况下,容易梯度消失;
不是以0为中心,导致收敛速度下降;
Sigmoid 函数执行指数运算,计算机运行得较慢。
ReLU
优点 :
当输入为正时,不存在梯度饱和问题。
ReLU 函数中只存在线性关系,因此它的计算速度比 sigmoid 和 tanh 更快。
缺点 :
如果输入负数,则梯度将完全为零,导致无法反向传播、更新节点,导致该神经元失效。
Tanh
优点 :
tanh 是一个双曲正切函数,可以由 sigmoid 函数变换而来,优点如下:
值域从[0, 1] 转换成[-1, 1], 以 0 为中心,加快了收敛速度。
可视化做个对比:
跟 sigmoid 类似
在输出值过大或者过小的情况下,容易梯度消失;
tanh 函数执行指数运算,计算机运行得较慢。
Leakly ReLU
优点 :
具有Relu函数的优点
解决了Relu的神经元死亡问题问,在负区域具有小的正斜率,因此即使对于负输入值,它也可以进行反向传播
缺点 :
斜率需要手动根据经验调整
梯度消失与梯度爆炸
梯度消失与梯度爆炸原理类似,可以一起说。
两种情况下梯度消失经常出现,原因主要是,在比较深的网络中,采用了不合适的损失函数,比如sigmoid,而梯度爆炸一般出现在深层网络和权值初始化值太大的情况下。
延伸考点
解决梯度消失或者梯度爆炸的常用思路?
提示,把 sigmoid 激活函数替换成 leaky relu、引入 batch normalization、残差结构、梯度正则化等.