首页 > 试题广场 >

在使用AdamW优化器时,与经典Adam+L2正则化的关键区

[单选题]
在使用AdamW优化器时,与经典Adam+L2正则化的关键区别是什么?
  • AdamW使用更大的动量系数
  • AdamW将权重衰减从梯度更新中解耦,直接作用于参数
  • AdamW不使用二阶矩估计
  • AdamW的学习率自动衰减

这道题你会答吗?花几分钟告诉大家答案吧!