首页 > 试题广场 >

什么是梯度爆炸和梯度消失?它们的原因是什么?

[问答题]
什么是梯度爆炸和梯度消失?它们的原因是什么?
一个数据输入到模型中再到输出会经过多个线性层、非线性层。在对模型进行梯度更新的时候就会反向计算其梯度然后进行更新。这一更新遵循求导的链式法则,如果接连的数值都很大,那么就会造成梯度爆炸,反之则会造成梯度消失。比如1.2连续乘以10次就会爆炸性的增长,0.1连续乘以10次也会爆炸性的减少。那么模型的权重就无法得到好的更改
发表于 2026-02-10 11:39:49 回复(0)
梯度消失指的是在多层迭代中传输数据会越来越小导致最终输出为0的结果,权重无法更新;而梯度爆炸指的是初始化权重过大导致前面层训练更新的速度要快于后面层,导致网络权重的大幅更新,影响最终训练效果。
发表于 2025-12-23 15:19:35 回复(0)