04-27 23:55 华为_系统工程师

发布于重庆

关注

第 3 题：Layer Normalization 的作用及为何不用 Batch Normali

题目

解释 Layer Normalization 的作用，以及为什么 Transformer 使用它而不是 Batch Normalization。

一、Layer Normalization 在做什么？

Layer Normalization（LN） 对单个样本、同一层内的所有特征做标准化：先在这一层的 $d$ 个神经元上算均值和方差，再对每个神经元减均值、除标准差，最后用可学习的 $\gamma,\beta$ 做缩放和平移。

设该层输出为 $\mathbf{h} \in \mathbb{R}^d$ ：

\mu = \frac{1}{d}\sum_{i=1}^d h_i,\quad \sigma^2 = \frac{1}{d}\sum_{i=1}^d (h_i - \mu)^2

\mathrm{LN}(\mathbf{h}) = \gamma \cdot \frac{\mathbf{h} - \mu}{\sqrt{\sigma^2 + \epsilon}} + \beta

作用：稳定每层输出的分布，减轻“内部协变量偏移”，让深层网络更好训、可以用更大学习率。 $\gamma,\beta$ 让模型能学“要不要标准化、偏到哪”，避免丢失表达能力。

和 BN 的本质区别：LN 的均值和方差是在特征维 $d$ （同一样本、同一层）上算的；BN 是在 batch 维（同一特征、不同样本）上算的。所以 LN 不依赖 batch，单样本也能算；BN 依赖 batch，batch 小时不稳定。

二、Batch Normalization 简要回顾

Batch Normalization（BN）：对每个特征维度，在当前 batch 的 $N$ 个样本上算均值和方差，然后对该特征做标准化。

训练时用当前 batch 的统计；推理时通常用训练阶段的移动平均（running mean/var），所以训练和推理不一致。
Batch 小时，batch 统计噪声大；序列长度不一或变长时，BN 在“batch×长度”上的统计也很难统一，推理时若长度和训练差很多，running 统计可能不适用。

三、Transformer 为什么用 LN 而不用 BN？

维度	LN	BN
统计维度	同一样本、层内 $d$ 维特征	同一特征、batch 内 $N$ 个样本
序列长度	与 $n$ 无关，任意长度一样算	长度不一/变长时统计难统一
Batch 大小	不依赖 bat

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

Ai Agent：面试300问文章被收录于专栏

《AI Agent 300 问》专为备战 AI Agent 相关岗位的求职者打造，适配校招、社招全场景，覆盖算法研发、产品、解决方案等全岗位。专栏汇总 300 道大厂高频面试真题，全维度覆盖提示工程、智能体规划推理、记忆机制、工具调用、多智能体协作、框架落地、行业应用等核心领域，拆解考点底层逻辑，分享一线实战经验，助你一站式通关高薪面试。

全部评论

推荐最新楼层

05-09 13:13

叠纸游戏_UI美术设计(准入职员工)

叠纸游戏内推，叠纸游戏内推码

前端面试问题：1. 自我介绍2. 低代码平台Blocksuit方案，这个技术选型的逻辑3. 物料和数据源连接是用什么样的解决方案，还追了一下数据源的获取4. 团队规模，负责的具体内容，职责之类的5. 你认为前端工程化包括哪些方面？你具体做过哪些6. Git提交，你们有引入什么工具，检测方式来控制不规范提交7. 前端监控埋点方面有做过哪些吗8. 后面的职业规划9. 离职原因10. 排期和人手不够的情况，假设你作为leader，你怎么处理冲突？反问：1. 项目情况，技术栈2. 面试流程叠纸游戏26届春招+27届nova训练营3.4启动！叠纸游戏成立于2013年8月，是一家专注于内容创作的游戏公司。...

点赞评论收藏

分享

05-05 11:47

三江学院 C++

AI Agent面经 1（持续更新）

Q1：⼀句话说明什么是 AI Agent？答案：AI Agent 是以⼤模型为认知核⼼，结合规划、记忆与⼯具调⽤，能在多步交互中根据环境反馈持续决策并完成任务的系统；其本质是 闭环的感知—思考—⾏动 循环，⽽不仅是单次⽂本⽣成。Q2：为什么说 Agent = LLM + Planning + Memory + Tools？缺⼀块会怎样？答案：缺 Planning：容易变成「只会接话」的聊天，⻓任务易跑偏或⼀步登天完不成。缺 Memory：⻓对话会丢线索，多会话⽆法延续⽤户偏好与任务状态。缺 Tools：只能「空谈」，⽆法查实时信息、执⾏代码、改系统状态。LLM 仍是中枢，但单靠 LLM 没有外...

查看3道真题和解析

点赞评论收藏

分享

04-08 12:19

天津工业大学产品经理

Token排行榜。。。

国内这个AI风气太夸张了吧，大家公司内部全部都用AI吗？实习生也能畅用吗？

牛客63981766...：给龙虾一个固定任务，每天出去逛一圈收集消息，token就上来了

点赞评论收藏

分享

03-20 20:48

字节跳动_测开(实习员工)

六面字节终oc 我的暑期结束了

timeline过年前就约的年后三月份的面试2026 3.05 一面2026 3.10 二面（挂）2026 3.13 二面2026 3.16 hr面2026 3.19 口头oc2026 3.20 offer两道手撕无重复字符最长子串数组中能组成小于n的最大数字记录一下 不多写什么了 同时也感谢平台上以前发面经的佬们记录的一些手撕题目 刷一刷颇有成长

在人才库的椰子很可爱：看来字节很喜欢出无重复字符最长子串，我前几天社招一面也是这题

我的OC时间线

点赞评论收藏

分享

05-07 17:43

四川大学 Java

4.24腾讯pcg后台一面--已凉

上来是手撕一道找链表的中间节点 一道lru 总共撕了1h 第一道有点错找了一会然后两个项目是纯后端的 问我有没有做过ai相关的 我说最近在做一个agent智能体 然后问了我流式输出的原理 rag mcp感觉鹅已经全面拥抱ai了 没有单纯的后端开发了 还是太菜了没有好好准备ai相关的内容+手撕时间太长了

查看7道真题和解析

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

88910次浏览 639人参与

# 简历当中有水分算不算造假？ #

176529次浏览 2330人参与

# 在爱玛，骑向未来 #

44805次浏览 437人参与

# 百度工作体验 #

332328次浏览 2254人参与

# 打工人的精神状态 #

154616次浏览 1552人参与

# 你收到了哪些公司的笔试？ #

69350次浏览 446人参与

# 你以为的实习VS真实的实习 #

142739次浏览 758人参与

# 备战春招/暑实，现在应该做什么？ #

70300次浏览 557人参与

# 距离春招还有一个月，你现在是什么开局？ #

62858次浏览 320人参与

# 职场新人体验 #

192875次浏览 1241人参与

# 银行笔面经互助 #

198560次浏览 1326人参与

# 工作后，你落下了哪些病根 #

42438次浏览 294人参与

# 应届生，你找到工作了吗 #

174203次浏览 900人参与

# 机械人，说说你的烦心事 #

148753次浏览 1165人参与

# 毕业季，给职场新人一些建议 #

221400次浏览 2603人参与

# 面试被问期望薪资时该如何回答 #

402683次浏览 2219人参与

# 你被哪些公司挂了？ #

198371次浏览 1077人参与

# 我们是不是被“优绩主义”绑架了？ #

49526次浏览 550人参与

# 你会为了工作牺牲生活吗？ #

81916次浏览 466人参与

# 机械人，秋招第一次笔试的企业是哪家？ #

103573次浏览 707人参与

# 实习生工资多少才算正常？ #

76798次浏览 532人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务