首页 > 试题广场 >

在训练大模型时,选择合适的优化算法十分重要。以下哪种算法在处

[单选题]
在训练大模型时,选择合适的优化算法十分重要。以下哪种算法在处理稀疏数据时效果较好?
  • SGD(随机梯度下降)
  • Adam
  • RMSProp
  • Adagrad

进化逻辑总结

可以这样理解:
SGD 解决“能不能训练”
Adagrad 解决“不同参数学习率问题”
RMSProp 解决“学习率衰减过快问题”

Adam 解决“方向稳定性 + 自适应缩放”


用一句话概括进化路径
SGD
→ 学习率统一,震荡严重
Adagrad
→ 参数级自适应,但会衰减过头
RMSProp
→ 用滑动平均避免衰减过头
Adam
→ 再加上动量,既稳又快
编辑于 今天 10:00:46 回复(0)