当目标函数为凸函数时,使用梯度下降法可以得到全局最优解
AdaGrad会随着时间的推移使得学习率越来越小
Adam本质上是带有动量项的RMSprop
RMSprop不需要设置全局的学习率
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题