Adam的收敛速度比RMSprop慢
相比于SGD或RMSprop等优化器,Adam的收敛效果是最好的
对于轻量级神经网络,使用Adam比使用RMSprop更合适
相比于Adam或RMSprop等优化器,SGD的收敛效果是最好的
随着梯度变的稀疏,Adam 比 RMSprop 效果会好。
整体来讲,Adam 是最好的选择。
很多论文里都会用 SGD,没有 momentum 等。SGD 虽然能达到极小值,但是比其它算法用的时间长,而且可能会被困在鞍点。
如果需要更快的收敛,或者是训练更深更复杂的神经网络,需要用一种自适应的算法。
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题