为什么用relu就不用sigmoid了
Sigmoid是指数计算,relu相比之下计算量小得多。Sigmoid在正负饱和区域梯度接近0,只有在0附近才有较好激活性,容易梯度弥散,不适合深层网络训练。Relu在大于0部分梯度为一个常数,不会梯度弥散,而且小于0部分导数为0,即该神经元不参与训练,就是所谓的稀疏性,缓解过拟合。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题