牛客344243631号

2024-04-08 14:51 已编辑门头沟学院算法工程师

关注

关于bn和ln

二面的时候面试官问我为什么transformer不用bn而是用ln。我看了几个网上的八股回答，结果面试官还是不满意，有没有懂哥讲一下啊？ #nlp# #腾讯#
我的回答也是不同句子长度不一样，然后每个句子的位置不一样，可能是表达不大好，那个老东西不满意

全部评论

推荐最新楼层

在刷代码的沸羊羊很认真

Nanyang Technological University 自然语言处理

因为transformer输入的序列长度不固定，bn是算每一个特征的均值和方差，序列长度不一样，计算的时候有的地方有值有的地方没有，不好计算。ln是对每一个样本单独计算，即使每个样本长度不一样也不影响计算

17 回复分享

发布于 2024-04-07 18:04 新加坡

顶呱呱的小刺猬很坚定

字节跳动_算法工程师

BN和LN是不同纬度的归一化 LN是特征层面的归一化不会因为序列长度差距过大受影响，BN是batch size纬度归一化因此序列长度会影响。具体怎么用都看实际情况是啥样的没那么绝对手撸一下公示记忆比较深刻

4 回复分享

发布于 2024-04-08 12:03 陕西

科大讯飞_AI研究院_AI研究算法工程师

transformer对句子或者序列建模，每一个token位置的语义并不像tabular数据或者图像那样特征是固定的吧，用bn就默认是那样对齐处理了

4 回复分享

发布于 2024-04-04 21:00 安徽

我真的太菜了啊

门头沟学院算法工程师

说一个很novel的观点…… bn一般用在图像上，当我们对图片抽取特征后，会得到不同通道的特征，这些通道特征对batch内样本具有同样的含义。例如一个人有年龄，身高等特征。而nlp中，如果要进行bn，则是对不同句子的第i个token进行处理，举个例子"我爱你"和"牛客网"，其中的我和牛并没有相同的含义，所以解释不通。还有一个点就是你所说的每个句子长度不同，对于短句子我们需要pad，那么如果进行bn就需要将pad.和长句子中的token进行处理，这样也是不合理的。

3 回复分享

发布于 2024-04-13 02:02 贵州

雪笋肉丝面

香港大学算法工程师

如果往深里说，可以结合上Lipschitz常量，self-attention的Lipschitz常量比较大，也就是上下界浮动大，BN层无法有效约束。这个点比较深，还可以延伸到LN的变体RMSNorm。虽然从理论上可以讲的很深，但其实主要还是实验上有效，这些八股属实没意思。

3 回复分享

发布于 2024-04-07 16:57 广东

因为一个句子不会因为词的位置发生变化而改变语义。

2 回复分享

发布于 2024-04-08 20:25 浙江

牛客386321228号

门头沟学院算法工程师

bn不好用啊，长度不一样

点赞回复分享

发布于 2024-07-01 19:02 北京

希望有好offer

北京工业大学算法工程师

Bn和batch大小关系很大，而句子长度并不固定。并且，对不同句子的同一位置的特征做归一化并无意义。

点赞回复分享

发布于 2024-04-08 14:48 河北

昨天 10:43

已编辑

百度_高级研发工程师

一份好的技术简历长什么样？

本期直接干货。 整体上是一个总分的结构，基本信息，个人优势总结，技能点，项目经历，自我评价，由浅入深、由总到分，由粗到细的介绍自己的总体情况。一、简历精简——页数之争，谁对谁错？ 说实话这块我多少带点情绪去写的，虽然我经常说要理智思考，但是有时候被喷子喷多了，也难免有些情绪，有就有吧，我又不是圣人。 言归正传，因为这块我也调研过，大体上分两个流派，一边是要精简到一页，一边是要多写一些，我觉得没法用对错来评价，因为我始终相信一句话——实践才是检验真理的唯一标准，只要你能用你的简历拿到offer，那就是好简历，拿不到，你就要优化。 从底层原理来说，大致分为这几种不同：  1.学历问题：同样一份简历...

万物DP：你这写的太多了，我看了看其实很多也没亮点

投递百度等公司10个岗位

点赞评论收藏

分享

10-22 10:24

叮咚买菜_咚力生（管理方向）(准入职员工)

叮咚买菜内推，叮咚买菜内推码

📍 工作地点：在上海市浦东新区叮咚买菜总部，我入职时正好赶上换新办公楼，搬到张江之门啦，新环境新工位，想想就超开心🥳 附近租房价格也比较合理，没有市中心那么夸张。 📝 工作内容：类似采购，但在采购基础上赋予了更大的想象和职能。不再是传统的搬货采购模式，而是要根据消费者需求精准开发产品，全程负责到底。 这边以生鲜为例子：比如帮助一些因各种原因被雪藏的特色生鲜水果走出当地，推广到更多的地方，让消费者尝到美味的特色生鲜水果的同时带动当地的农牧民共同致富💰 例如：大凉山丑苹果，通过以离太阳更近离城市更远，天然无污染为卖点开发出的产品。霜冻菜以抗寒植物在寒冷条件下提升细胞渗透压将淀粉转化为糖的原...

点赞评论收藏

分享

09-30 16:05

武汉大学产品经理

第一次开周会一屁股坐董事长位置上了

谁来救救我..

做个有文化的流氓：不想当将军的士兵不是好士兵

点赞评论收藏

分享

10-22 11:51

影石Insta360_深度学习算法工程师(准入职员工)

影石360内推，影石360内推码

影石360 云台嵌入式软件开发 二面面经秋招差不多结束了，11月底突然收到二面消息，八股，刷题基本都忘记了，本来想直接拒面了，但说能一周内出结果，抱着试一试的态度去看看，还好没怎么问八股和手撕代码。面试官说他们面试流程中断的一阵子，但我感觉是前面的人鸽完了。1. 公司、部门介绍2. 挑个项目，说说里面做了哪些工作3. 项目里面遇到困难点4. 做硬件原理图的时候怎么分配引脚？5. hard fault一般怎么解决？6. RTOS中怎么定位问题？MSP和PSP区别？7. 用gcc编译过代码吗？整个系统流程说一下？（gcc+cmake+openocd，可能主要看你有没有自己搭过编译链吧）8. 有自己...

点赞评论收藏

分享

评论

12

53

招聘动态

字节跳动火山引擎

2026校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

平安产险科技中心

2026届校园招聘

联想

26届AI专项｜内推码NK2026

快手

2026届校园招聘

联想

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 如果秋招能重来，我会____ #

11072次浏览 104人参与

# 苦尽甘来时，再讲来时路 #

11043次浏览 185人参与

# 快手技术岗信息交流阵地 #

12557次浏览 74人参与

# 如果上班像打游戏，你最想解锁什么技能 #

2662次浏览 32人参与

# 我是面试官，请用一句话让我破防 #

2272次浏览 19人参与

# 为了实习逃课值吗？ #

12259次浏览 99人参与

# “vivo”个offer #

19727次浏览 151人参与

# 校招生月薪1W算什么水平 #

3164次浏览 22人参与

# 机械求职避坑tips #

71473次浏览 485人参与

# 一份好的简历长什么样？ #

7031次浏览 173人参与

# 选完offer后，你后悔学机械吗？ #

43162次浏览 249人参与

# 秋招许愿，本周能____ #

14599次浏览 95人参与

# 选择和努力，哪个更重要？ #

135260次浏览 1039人参与

# 班味很重的人是啥样的？ #

4432次浏览 30人参与

# 应届生第一份工资要多少合适 #

3722次浏览 36人参与

# 投递无反馈，如何优化求职策略？ #

2527次浏览 26人参与

# 材料专业可以靠半导体脱坑吗？ #

26983次浏览 138人参与

# 机械制造秋招总结 #

82658次浏览 818人参与

# 大学最后一个寒假，我想…… #

60768次浏览 654人参与

# 职场新人体验 #

120883次浏览 827人参与

# 你觉得实习能学到东西吗 #

114715次浏览 1248人参与

# 新凯来求职进展汇总 #

58154次浏览 150人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务