根据LN的位置不同可分Pre-LN和Post-LN
与RMSNorm相比,LN的主要区别在于去掉了减去均值的部分
LN首先计算每个样本的均值和方差,之后进行归一化,最后对归一化的值进行缩放和添加偏置
LN可在一定程度上避免梯度消失或梯度爆炸的问题,增强模型的泛化能力
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题