如果往深里说,可以结合上Lipschitz常量,self-attention的Lipschitz常量比较大,也就是上下界浮动大,BN层无法有效约束。这个点比较深,还可以延伸到LN的变体RMSNorm。 虽然从理论上可以讲的很深,但其实主要还是实验上有效,这些八股属实没意思。
3 3

相关推荐

04-28 11:34
西北大学 运营
牛客4396号:不好意思,这个照片猛一看像丁真
点赞 评论 收藏
分享
05-09 12:23
已编辑
华南理工大学 Java
野猪不是猪🐗:给他装的,双九+有实习的能看的上这种厂我直接吃⑨✌们拿它练练面试愣是给他整出幻觉了
点赞 评论 收藏
分享
牛客网
牛客网在线编程
牛客网题解
牛客企业服务