SGD:随机梯度下降,一次只用一个样本更新,优点是更新速度快,缺点是训练不稳定,准确度下降。
momentum 动量学习,用来解决梯度下降不稳定,容易陷入鞍点的缺点,它采用将新旧梯度加权平均的方法产生新的梯度。可以加快训练,减小动荡
adagrad 解决学习率不能在不同分量上改变的缺点。因为随着训练的不断进行,我们希望模型的更新趋于稳定,逐渐收敛,若是保持一个较大的学习率,会导致模型的损失函数在极值点不断震荡达不到收敛。而采用adagrad将之前梯度的平方求和再开根号作为分母,会使得一开始学习率呈放大趋势,随着训练的进行学习率会逐渐减小
Adam 集众家之所长,结合momentum和adagrad两种算法的优势。