在Pre-LN结构中,LN在残差之后
LN主要为稳定训练、保持每层输入分布稳定,缓解内部协变量偏移
LN与BN一样推理时依赖当前批统计量
LN在序列长度维度上归一化
这道题你会答吗?花几分钟告诉大家答案吧!
扫描二维码,关注牛客网
下载牛客APP,随时随地刷题