首页 > 试题广场 >

问题：神经网络激活函数？

[问答题]

问题：神经网络激活函数？

查看答案及解析

MuMaXu头像

MuMaXu

Sigmoid

数学公式

$\sigma(x)=\frac{1}{1+e^{-x}}$

函数图像及梯度函数图像

优点

它是便于求导的平滑函数，其导数为 $\sigma(x)(1-\sigma(x))$

缺点

梯度消失
幂运算计算量大
Sigmoid函数的输出不不是Zero-centered的

tanh函数

数学公式

$\tanh x=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}$

函数图像及梯度函数图像

如上图所示，计算可以知道： $\tanh (x)=2 \operatorname{sigmoid}(2 x)-1$ ，它其实是一个简单放大的sigmoid神经元，和sigmoid神经元⼀样，也具有软饱和性。但是和sigmoid神经元不同的是，它解决了zero-centered的输出问题，因此，在实际操作中，tanh非线性函数比sigmoid非线性函数更受欢迎。然而，gradient vanishing的问题和幂运算的问题仍然存在。因为tanh的输出均值比sigmoid更接近0，SGD会更更接近natural gradient（一种二次优化技术），从而降低所需的迭代次数。

relu函数

数学公式

$R e L U(x)=\max (0, x)$

函数图像及梯度函数图像

图片说明

优点

解决了gradient vanishing问题：ReLU在 $x<0$ 时硬饱和。由于时导数为1，所以，ReLU能够在时保持梯度不衰减，从而缓解梯度消失问题。
计算速度非常快。对比sigmoid和tanh神经元含有指数运算等耗费计算资源的操作，ReLU可以简单地通过对⼀个矩阵进行阈值计算得到。ReLU程序实现就是一个if-else语句句，而sigmoid函数要进行浮点四则运算
收敛速度非常快。相较于sigmoid和tanh函数，ReLU对于随机梯度下降的收敛有巨大的加速作用。
ReLU另外一个性质是提供神经网络的稀疏表达能力，relu函数在负半区的导数为0 ，所以一旦神经元激活值进入负半区，那么梯度就会为0，也就是说这个神经元不会经历训练，即所谓的稀疏性
缺点
Dead ReLU Problem。随着训练的推进，部分输入会落入硬饱和区，某些神经元可能永远不会被激活，这个ReLU单元在训练中将不可逆转的死亡，导致相应的参数永远不能被更新，使得数据多样化丢失。
偏移现象。即输出均值恒大于零。偏移现象和Dead ReLU Problem会共同影响网络的收敛性。

解释一下硬饱和和软饱和：

硬饱和：如果|x|>c时，有f^'(x)=0，那么就可以称为硬饱和，比如有relu，为左硬饱和

软饱和：如果|x|>c时，有f^'(x)趋近于0，那么就可以称为软饱和，比如有sigmoid和relu，为软饱和

编辑于 2019-10-31 20:37:14 回复(0)

提交观点

问题信息

上传者：小小

难度：

1条回答 82收藏 2498浏览

热门推荐

相关试题

扫描二维码，关注牛客网
意见反馈
下载牛客APP，随时随地刷题

扫一扫，把题目装进口袋

求职之前，先上牛客: 扫描二维码，进入QQ群



扫描二维码，关注牛客公众号

公司地址：北京市朝阳区北苑路北美国际商务中心K1座一层-北京牛客科技有限公司
联系方式：010-60728802 投诉举报电话：010-57596212（朝阳人力社保局）
牛客科技© All rights reserved admin@nowcoder.com
京ICP备14055008号-4 增值电信业务经营许可证营业执照人力资源服务许可证
京公网安备 11010502036488号