首页 > 试题广场 >

问题:神经网络激活函数?

[问答题]

Sigmoid

数学公式

函数图像及梯度函数图像

优点

它是便于求导的平滑函数,其导数为

缺点

  • 梯度消失

  • 幂运算计算量大

  • Sigmoid函数的输出不不是Zero-centered的

    tanh函数

    数学公式

    函数图像及梯度函数图像

    图片说明

如上图所示,计算可以知道:,它其实是一个简单放大的sigmoid神经元,和sigmoid神经元⼀样,也具有软饱和性。但是和sigmoid神经元不同的是,它解决了zero-centered的输出问题,因此,在实际操作中,tanh非线性函数比sigmoid非线性函数更受欢迎。然而,gradient vanishing的问题和幂运算的问题仍然存在。因为tanh的输出均值比sigmoid更接近0,SGD会更更接近natural gradient(一种二次优化技术),从而降低所需的迭代次数。

relu函数

数学公式

函数图像及梯度函数图像

图片说明

优点

  • 解决了gradient vanishing问题:ReLU在时硬饱和。由于时导数为1,所以,ReLU能够在时保持梯度不衰减,从而缓解梯度消失问题。

  • 计算速度非常快。对比sigmoid和tanh神经元含有指数运算等耗费计算资源的操作,ReLU可以简单地通过对⼀个矩阵进行阈值计算得到。ReLU程序实现就是一个if-else语句句,而sigmoid函数要进行浮点四则运算

  • 收敛速度非常快。相较于sigmoid和tanh函数,ReLU对于随机梯度下降的收敛有巨大的加速作用。

  • ReLU另外一个性质是提供神经网络的稀疏表达能力,relu函数在负半区的导数为0 ,所以一旦神经元激活值进入负半区,那么梯度就会为0,也就是说这个神经元不会经历训练,即所谓的稀疏性

  • 缺点

  • Dead ReLU Problem。随着训练的推进,部分输入会落入硬饱和区,某些神经元可能永远不会被激活,这个ReLU单元在训练中将不可逆转的死亡,导致相应的参数永远不能被更新,使得数据多样化丢失。

  • 偏移现象。即输出均值恒大于零。偏移现象和Dead ReLU Problem会共同影响网络的收敛性。

解释一下硬饱和和软饱和:

硬饱和:如果|x|>c时,有f^'(x)=0,那么就可以称为硬饱和,比如有relu,为左硬饱和

软饱和:如果|x|>c时,有f^'(x)趋近于0,那么就可以称为软饱和,比如有sigmoid和relu,为软饱和

编辑于 2019-10-31 20:37:14 回复(0)