今天 11:51 上海交通大学算法工程师发布于江苏

关注

为什么Transformer用LayerNorm？

面试题简述

Transformer中用的是LayerNorm，而不是常见的BatchNorm，这是为什么？

面试官想听的

意识到不是BN不好，而是不适合Transformer的使用场景。

面试回答举例

Transformer中选择LayerNorm而不是BatchNorm，主要原因和序列建模方式以及训练场景有关。

详情请查看：http://xhslink.com/o/8yJohFzKSX6

由浅入深分析

1、BN 依赖 batch 统计量。

2、LN 只依赖特征维度。

3、Transformer 的 token 并行与 BN 设计目标维度不一致。

4、自回归推理场景下 BN 表现不稳定。

面试加分点

1、提出推理阶段 batch size = 1。

2、能从 NLP/序列建模特点解释，而不是泛讲归一化。

#校招##实习##面试##八股##大厂#

2025推荐算法文章被收录于专栏

带你复盘2025年推荐算法高频面试题，拆解推荐算法面试到底在考啥！

全部评论

推荐最新楼层

2025-12-26 16:10

已编辑

门头沟学院测试开发

坐ld不小心在招聘软件上给ld打招呼

今天下午活干完了，偷偷刷了两道力扣，伸懒腰的时候正好看ld在看简历，闲的无聊就也打开了薄丝，想随便刷刷，结果正好给我推了ld正在招的岗位，本来想看一看当时和他的沟通记录的，结果因为30天没发消息，点击立刻沟通是自动打招呼，“我是xxx，可实习6个月......”当时设置的招呼语小作文直接发出，我看了眼坐我旁边的ld，赶紧撤回，退出软件，突然想到还有名字头像啥的于是，福州某高中学历的许昊龙先生堂堂登场

点赞评论收藏

昨天 16:25

用友_Java开发实习生(实习员工)

27届学院本一段中厂一段中大厂实习，简历求锐评

用友打算干到3月份开学，之后冲击中大厂暑期实习，想知道这份简历能不能达到大厂暑期门槛

投递用友等公司8个岗位

点赞评论收藏

昨天 14:19

门头沟学院产品经理

实习两周遭劝退，隔天就招新人，合理吗？

我实习才两周，第三周周一就被通知说我不行，结果第二天公司直接叫新人来面试了，我当时整个人都懵了！现在人家招了两周总算招到人了，今天周三直接通知我下周一卷铺盖走人，这操作真的合理吗？！

哈利波特不吃辣椒：因为实习你记住不是正职，本来就是双方可以随时毁约的，所以实习记住别投入过多感情，份内事情做好就行，开了就开了怕什么，不是转正的实习都无所谓

春招前还要继续实习吗？

点赞评论收藏

今天 00:47

已编辑

门头沟学院 Java

27大水货求救

在某500人小厂实习，java后端toB的业务，做管理端今天是到岗第三天，最近没啥任务，mt基本就让熟悉熟悉业务，动动项目，写了个上传下载文件我的认知里，比较牛逼的实习产出就是什么高并发提升多少多少，优化接口速度，实现某巨复杂的功能这管理端项目感觉不是很好写实习产出啊😭，需要自己包装一下吗🤔，求🐮爷爷们支支招😭引流:腾讯 美团 字节跳动 快手 阿里巴巴 百度 谷歌 拼多多 学院本 二本 双非 211 985 硕士 大专

实习如何「偷」产出？

点赞评论收藏

昨天 13:35

已编辑

同程旅行_前端开发

怀疑hr没上过学

很早之前的了。hr："我看你简历上写的是，20年到24年在xxx学校上学。”我：是的。hr:（震惊）啊！？（小声）你上了五年！！！（发现新大陆）你为什么会上五年呢？我：😅这个…，怎么说呢，20年9月到24年6月。好像是4年……😅hr：😳嗷嗷，这样。但是我看现在（23年11月）你才大三，你们学校大三就可以实习了吗？我：，我大四。。。。

面试官问过你最刁钻的问题...

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 对2025年忏悔 #

4206次浏览 99人参与

# 你觉得专业和学校哪个对薪资影响最大 #