随机梯度下降(SGD)是一种较为常见的优化算法,经常应用于大规模和稀疏机器学习问题当中。相对于非随机算法,SGD 能更有效的利用信息,在一定程度上加快了训练速度。
Momentum模拟物理里动量的概念,使参数更新的方向不仅由当前的梯度决定,也与此前累积的下降方向有关。可以加速sgd在正确方向的更新,并且抑制震荡。
Adagrad把所有梯度平方和开根号来除当前的梯度,在学习率方面进行了约束,每个分量有各自不同的学习率。
RMSProp中的衰减系数,让参数更新只关注最近一段时间窗口内的梯度,一定程度上可以避免因分母积累得太大而导致的学习率逐渐为0,进而提前结束训练的情况。