首页 > 试题广场 >

在大模型训练中,为减少显存消耗通常采用梯度累积技术。以下关于

[单选题]
在大模型训练中,为减少显存消耗通常采用梯度累积技术。以下关于梯度累积的正确描述是?
  • 将多个小批次梯度的平均值用于参数更新
  • 通过丢弃部分梯度来降低显存占用
  • 在反向传播时跳过某些层的计算
  • 永久减少模型可训练参数的总量
梯度累计是将多个小批次梯度的平均值作为模拟更大批次的梯度
发表于 2025-11-06 19:38:56 回复(0)