减少训练所需的epoch数
在GPU显存有限时,通过多次前向-反向传播累积梯度后再更新参数,模拟更大batch size的效果
加速每步的梯度计算
自动调整学习率
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题