为什么Transformer用LayerNorm?

面试题简述

Transformer中用的是LayerNorm,而不是常见的BatchNorm,这是为什么?

面试官想听的

意识到不是BN不好,而是不适合Transformer的使用场景。

面试回答举例

Transformer中选择LayerNorm而不是BatchNorm,主要原因和序列建模方式以及训练场景有关。

详情请查看:http://xhslink.com/o/8yJohFzKSX6

由浅入深分析

1、BN 依赖 batch 统计量。

2、LN 只依赖特征维度。

3、Transformer 的 token 并行与 BN 设计目标维度不一致。

4、自回归推理场景下 BN 表现不稳定。

面试加分点

1、提出推理阶段 batch size = 1。

2、能从 NLP/序列建模特点解释,而不是泛讲归一化。

#校招##实习##面试##八股##大厂#
2025推荐算法 文章被收录于专栏

带你复盘2025年推荐算法高频面试题,拆解推荐算法面试到底在考啥!

全部评论

相关推荐

点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务