pre norm就是在残差前norm啊,这样残差的效果更强,训练计算量更低,但是会削弱模型深度带来的增益。post norm就是正常bert用的,在残差后面加,深度带来的效果更明显,但是计算量会更大,目前post norm认为更适合😂感觉你基础知识都没学全啊,大部分都挺基础的,gpt这么有名的自回归生成式模型都不知道,因为xlnet提出了自编码和自回归的概念,gpt可以用来做生成任务,bert不行,xlnet对此提出了解决办法

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务