将多个小批次梯度的平均值用于参数更新
通过丢弃部分梯度来降低显存占用
在反向传播时跳过某些层的计算
永久减少模型可训练参数的总量
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题