首页 > 试题广场 >

梯度消失梯度爆炸怎么解决

[问答题]

梯度消失梯度爆炸怎么解决

1.梯度裁剪
2.BN
3.非饱和激活函数
4.Glorot初始化与He初始化
发表于 2021-03-12 10:20:16 回复(0)

梯度爆炸

裁剪梯度

把所有模型参数梯度的元素拼接成⼀个向量g,并设裁剪的阈值是。裁剪后的梯度:

梯度消失

LSTM

LSTM全称是长短期记忆网络(long-short term memory networks),是不那么容易发生梯度消失的,主要原因在于LSTM内部复杂的“门”(gates),如下图,LSTM通过它内部的“门”可以接下来更新的时候“记住”前几次训练的”残留记忆“,因此,经常用于生成文本中。

BatchNorm

神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。

激活函数的选择

经常使用relu函数

残差网络

不是很懂。。。

部分内容来源于博客

发表于 2019-05-10 13:38:04 回复(0)
改变激活函数, 使用batch normalization 使用Lstm
发表于 2019-04-17 21:58:30 回复(0)