为什么用relu就不用sigmoid了

[问答题]

为什么用relu就不用sigmoid了

来个天降offer吧～～

sigmoid函数只在0附近具有较好的激活性，在正负饱和区域，梯度都接近于0，会导致梯度弥散，而relu大于0的部分的导数为常数，不会产生梯度弥散现象，小于0的部分导数为0不参与训练，具有稀疏性，而且relu函数的导数计算更快

编辑于 2019-04-17 21:57:14 回复(0)

HDU_ducker

Sigmoid是指数计算，relu相比之下计算量小得多。Sigmoid在正负饱和区域梯度接近0，只有在0附近才有较好激活性，容易梯度弥散，不适合深层网络训练。Relu在大于0部分梯度为一个常数，不会梯度弥散，而且小于0部分导数为0，即该神经元不参与训练，就是所谓的稀疏性，缓解过拟合。

发表于 2019-04-17 15:06:11 回复(0)

提交观点

问题信息

上传者：小小

难度：

2条回答 56收藏 2156浏览

扫一扫，把题目装进口袋