面试题简述Transformer中用的是LayerNorm,而不是常见的BatchNorm,这是为什么?面试官想听的意识到不是BN不好,而是不适合Transformer的使用场景。面试回答举例Transformer中选择LayerNorm而不是BatchNorm,主要原因和序列建模方式以及训练场景有关。详情请查看:http://xhslink.com/o/8yJohFzKSX6由浅入深分析1、BN 依赖 batch 统计量。2、LN 只依赖特征维度。3、Transformer 的 token 并行与 BN 设计目标维度不一致。4、自回归推理场景下 BN 表现不稳定。面试加分点1、提出推理阶段 ...