牛客344243631号

04-08 14:51 已编辑算法工程师

关注

关于bn和ln

二面的时候面试官问我为什么transformer不用bn而是用ln。我看了几个网上的八股回答，结果面试官还是不满意，有没有懂哥讲一下啊？ #nlp# #腾讯#
我的回答也是不同句子长度不一样，然后每个句子的位置不一样，可能是表达不大好，那个老东西不满意

全部评论

推荐最新楼层

在刷代码的沸羊羊很认真

Nanyang Technological University 电子信息类

因为transformer输入的序列长度不固定，bn是算每一个特征的均值和方差，序列长度不一样，计算的时候有的地方有值有的地方没有，不好计算。ln是对每一个样本单独计算，即使每个样本长度不一样也不影响计算

16

送花回复

发布于 04-07 18:04 新加坡

科大讯飞_AI研究院_AI研究算法工程师(准入职员工)

transformer对句子或者序列建模，每一个token位置的语义并不像tabular数据或者图像那样特征是固定的吧，用bn就默认是那样对齐处理了

4

送花回复

发布于 04-04 21:00 安徽

滴滴

校招火热招聘中

官网直投

顶呱呱的小刺猬很坚定

门头沟学院电子信息类

BN和LN是不同纬度的归一化 LN是特征层面的归一化不会因为序列长度差距过大受影响，BN是batch size纬度归一化因此序列长度会影响。具体怎么用都看实际情况是啥样的没那么绝对手撸一下公示记忆比较深刻

4

送花回复

发布于 04-08 12:03 陕西

雪笋肉丝面

小米集团_AI实验室_算法工程师(准入职员工)

如果往深里说，可以结合上Lipschitz常量，self-attention的Lipschitz常量比较大，也就是上下界浮动大，BN层无法有效约束。这个点比较深，还可以延伸到LN的变体RMSNorm。虽然从理论上可以讲的很深，但其实主要还是实验上有效，这些八股属实没意思。

3

送花回复

发布于 04-07 16:57 广东

我真的太菜了啊

门头沟学院计算机类

说一个很novel的观点…… bn一般用在图像上，当我们对图片抽取特征后，会得到不同通道的特征，这些通道特征对batch内样本具有同样的含义。例如一个人有年龄，身高等特征。而nlp中，如果要进行bn，则是对不同句子的第i个token进行处理，举个例子"我爱你"和"牛客网"，其中的我和牛并没有相同的含义，所以解释不通。还有一个点就是你所说的每个句子长度不同，对于短句子我们需要pad，那么如果进行bn就需要将pad.和长句子中的token进行处理，这样也是不合理的。

2

送花回复

发布于 04-13 02:02 贵州

程序员小耳东

算法工程师

因为一个句子不会因为词的位置发生变化而改变语义。

1

送花回复

发布于 04-08 20:25 浙江

希望有好offer

北京工业大学计算机类

Bn和batch大小关系很大，而句子长度并不固定。并且，对不同句子的同一位置的特征做归一化并无意义。

点赞

送花回复

发布于 04-08 14:48 河北

要学会找工作

04-26 18:35

已编辑

门头沟学院计算机类

【金山办公】NLP算法工程师

金山办公 投递2023-03-19 NLP算法工程师-面向24届春招 笔试2024-03-23 20道选择，3道编程（还算容易）（不到一个小时做完） 给定一些字符s。要求辅音字符不能相邻，问能够组成的最长的字符串长度为多少。（10分） 给定一个数组nums，正整数m，需要将其分为两组。规则如下： （1）轮流选择一些数字到两组中的一组中。 （2）每次选择时，都会选择剩下数字中值最大的数。 （3）同时需要选择该数字左右两侧m个数字（若不足，则全选）。 （4）返回一个字符串，其中每个字符代表了每个数字被归为第一组还是第二组。'A'表示被归为第一组，'B'表示被归为第二组。（15分） ...

金山办公开奖10人在聊

查看3道真题和解析 2024秋招

点赞评论收藏

转发

我是乙方听话可爱善良

04-28 16:16

哈尔滨理工大学计算机类

腾讯数据科学面委会三面

求求了有人能给分享下面委会的面经吗，孩子太累了，😭！

腾讯三面190人在聊

点赞评论收藏

转发

纠结的牛牛在看面经

04-25 14:43

电子科技大学电子信息类

鼠鼠开头多说一句，面试官人巨好，很耐心的跟我讲不要紧张，直接治好了上周面试造成的的ptsd 1.自我介绍 2.问项目 延展问八股 2.1Lora的参数除了秩大小有哪些 2.2ptuning V2具体实现过程，以一个attention layer举例，描述tensor前后形状变化 2.3lora、ptuning v2以及fine tuning的区别 2.4past_key_value在传统的transformer中的作用 3.问论文 cv和nlp两篇论文中，表示对cv的更感兴趣一点，就论文问了一些问题 4.反问部门业务

Soul一面12人在聊

查看9道真题和解析

点赞评论收藏

转发

05-05 16:10

Java

有一起写开源项目的老哥吗?项目简介: 聚焦微信用户不能及时回复、同时回复及定制回复的痛点，紧跟行业风口，打通微信和AIGC的跨界壁垒，通过赋能AI为用户提供更好的人际关系沉淀。项目技术栈: SpringBott3 Maven SQLite项目规划: 对接更多在线模型(比如ChatGPT、Gemini等)；优化Ollama对接；企业微信接口接入；LangChain接入项目起因: 在哔哩哔哩看到一个UP演示了一个微信海王工具，通过AI同时和多个妹妹聊天，然后我就去找了个工具，结果要钱，那不是要钱，是要我的命啊。于是上GitHub看了一圈 结果发现能用的项目都是基于GO Python 和 JavaScript的 基于Java的项目 要么写的太烂 要么不能用 所以自己从头写了一个项目地址: https://gitee.com/aSingleDragon/aigc4chatPS: 关于项目的任何问题 欢迎一起讨论 知无不言 言无不尽

点赞评论收藏

转发

04-30 02:57

门头沟学院计算机类

漫长的找实习莫名其妙的offer

腾讯timeline4.22 一面 4.23 二面 4.25 三面（hr面）4.26 录用评估+云评4.28 oc+offer面经参考价值有亿点低一面主要问项目+场景题 二面还是问项目+场景题三面hr面 普通问答 基本上全是问项目然后根据项目，提出类似场景的问题让设计一下，说一下逻辑，或者问有没有想过其他设计方式，尝试过优化什么的。又或者是突然想到一个奇怪的问题丢过来，基本上会一直扩展问，问到不会为止。 全程基本无八股、无算法，只有项目跟场景题。 过程真是快的夸张，回想一个多月前，光子一面，自己太菜了，八股都不怎么会，直接秒挂。隔了一个多月被天美捞，自己什么臭鱼烂虾，心里还...

点赞评论收藏

转发

10 48 评论

招聘动态

网易游戏（互娱）

2025届实习生培养项目

滴滴

2025届秋招储备实习生招聘

全站热榜

正在热议

# 牛客帮帮团来啦！有问必答 #

822240次浏览 13036人参与

# 机械制造薪资爆料 #

320086次浏览 3732人参与

# 晒一晒我的offer #

3467763次浏览 55259人参与

# 0offer是寒冬太冷还是我太菜 #

428040次浏览 4945人参与

# 你觉得找工作该拿大厂还是小厂练手 #

61624次浏览 872人参与

# 荣耀求职进展汇总 #

70632次浏览 717人参与

# 如果可以选，你最想从事什么工作 #

186088次浏览 3078人参与

# 实习生应该准时下班吗 #

80747次浏览 592人参与

# 金三银四，你有感觉到吗 #

329249次浏览 4222人参与

# 海康威视求职进展汇总 #

101608次浏览 1217人参与

# 正在春招的你，也参与了去年秋招吗？ #

136477次浏览 1705人参与

# 实习必须要去大厂吗？ #

13844次浏览 219人参与

# 实习工作，你找得还顺利吗？ #

42437次浏览 469人参与

# 我在牛爱网找对象 #

49814次浏览 322人参与

# 软件开发投递记录 #

479190次浏览 7243人参与

# 宁德时代求职进展汇总 #

37063次浏览 413人参与

# 国企vs私企，你更想去？ #

20273次浏览 205人参与

# 求职遇到的搞笑事件 #

19676次浏览 287人参与

# 想实习转正，又想准备秋招，我该怎么办 #

117867次浏览 1329人参与

# 正在实习的你，有转正机会吗？ #

106435次浏览 1043人参与

牛客网
牛客企业服务