算法打工人阿旺

05-30 23:55 中山大学算法工程师发布于山东

关注

问的贼细:京东大模型算法面试

✅一面
1.直接开始八股
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致，用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim，BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head，参数量是多少，和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM，参数，ZERO，vllm，梯度累积，优化器，混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
15.算法题：返回第K大的数，要求比快排更快
✅二面
1.自我介绍
2.询问实习时间
3.快手推荐实习主要做的什么
4.实习期间做了哪些优化
5.LLM 的长度扩展策略有哪些
6.介绍 YaRN
7.用户是怎么用你们的工具的
8.幻觉怎么判断出来，如何解决
9.是否有调用外部搜索引擎
10.有没有用到Agent和RAG
11.910B适配过程中遇到的问题
12.深挖NIPS论文
13.下游任务介绍，效果为什么会有提升
14.给了一个现实生活中的例子，你的这篇论文怎么套上去
15.实习期间最大的挑战
16.技术上最有难度的事情是什么
17.转正和目前的offer情况
✅三面
1.自我介绍
2.对京东的感受
3.有没有觉得不好的地方
4.HR 介绍了京东的价值观
5.科研或者实习过程中有没有做过很创新的东西
6.这个过程中有没有遇到什么很困难的事情
7.交流技术的渠道一般都有哪些
8.觉得之前实习工作强度如何
9.目前的 offer 情况
✴️算法求职辅导，欢迎后台联系

全部评论

推荐最新楼层

05-29 21:27

已编辑

门头沟学院设计

大厂实习一天开销

为什么从小厂变大厂了，因为我换新实习啦～（也许完美是中厂…但是今天入职一天都在开权限把我搞晕了快，午饭晚饭都去食堂了，但是每次进去都感觉找不到出口，电梯也很难等🙁)总支出：53+7.5+0+0+9=69.5r房租：日均53r地铁：3.5+4=7.5r（北京地铁每月消费超过100打八折，我马上到 150 了，可以打 5 折）早饭：0r（ 在上家公司习惯了到公司吃免费的早餐，结果今天忘了入职新公司是不提供免费的饭，所以忘记吃了）午饭：0r（新入职，mt 请几个实习生一起吃的，吃了辣子鸡和酸汤肥牛😍）晚饭：9r（豆芽+西红柿鸡蛋，我爱西红柿，鸡蛋不吃😋）收入：完美按 4000 满勤和 400 餐补相加➗出勤天数，所以以后不写收入了，因为我也不知道日薪是多少…maybe 一天 200 和 20 餐补明天周五，打算买点樱桃吃～

ResourceUtilization：捉美女牛友

记录实习开销

点赞评论收藏

分享

06-04 16:38

郑州大学算法工程师

面试字节大模型（LLMs）RAG面被问麻了~

LORA 原理：解释 LORA(Low-RankAdaptation)的核心思想，如何通过低秩矩阵实现参数高效微调?数学形式如何表达?Self-Attention机制：自注意力机制中 O/K/ 矩阵的作用是什么?如何通过缩放点积计算注意力权重?公式推导并解释Softmax 的意义。位置编码：Transformer为何需要位置编码?主流 LLM(如 LLaMA、GPT)使用哪种位置编码(如 ROPE)?相比绝对/相对位置编码有何优势?Seq2Seg 模型：Seq2Seq模型的核心组件是什么?Encoder-Decoder结构如何解决长程依赖问题?RAG技术：RAG(检索增强生成)的完整链路包含哪...

点赞评论收藏

分享

05-28 20:13

中山大学算法工程师

强度拉满:网易大模型算法岗

1️⃣一面时间：9.12  时长：1hcode：统计岛屿数量、最大岛屿面积，DFS方法解了然后介绍实习项目，面试官非常耐心地听，没有打断八股1.bert和gpt的区别？（从模型架构、训练方式、使用场景方面回答的）2.训练/微调一个LLM的流程？3.实习时用的 megatron 框架吗，对分布式训练框架了解多少？（回答了deepspeed和megatron区别，以及几种并行方式，以及deepspeed的三种zero）4.了解强化学习吗，跟SFT有什么区别？5.反问：业务，对岗位的期望💣评价：有点紧张，算法题有一个小失误没注意到2️⃣二面时间：9.14  时长：1h八股1.写一下 attention 公式（代码实现了下）2.训练时为什么要mask，推理时也需要吗？两处有什么区别？推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别？4.计算attention时为什么要除以d_k，这个d_k的含义是？5.attention计算时还有哪些scale处理？6.attention中softmax函数作用、公式、为什么有减去最大值的处理？换个函数还能这样处理吗？7.解释数值上溢、下溢问题8.讲一下prompt书写的经验，如何判断prompt是否达标，如何改进prompt9.讲一下SFT，会对哪部分计算loss？为什么？10.讲一下deepspeed11.训练用一个7b模型要占用多少显存？不同zero阶段能够节省多少显存？12.训练模型时用了几张卡，有遇到什么异常中断问题吗？反问： 在乎候选人什么能力？对面试表现有哪些改进意见？💣评价： 基础不够扎实，网上有的知识都能回答上来，在同龄人里算比较优秀，欠缺一些多机多卡实践经验。  

查看17道真题和解析

点赞评论收藏

分享

06-03 19:25

已编辑

门头沟学院 Java

大模型面经（第二期）

上期写道刚开始面试的时候，这期写一写5月11号时候，这个时候手上就已经有两三家offer了，然后去北京的前一两天又发了三家offer随便选了个离公司近的工资高点的就去了。那么这期还是讲一下怎么去面试。其实面试的东西都一样，就是说你干过什么，回答问题就行了你要考虑的，不是这么去背八股文，而是要去琢磨到底要不要去实习，我个人而言，我最开始是因为电脑配置带不动才去好点的公司有好的卡给我用，然后呢去了也有工资，但是我的自由被限制了，我没法再天天琢磨新玩意我很痛苦，然后学会了怎么摸鱼，人家都是9点半来，我一开始是8点40到，我现在就吃了早饭再去差不多9点能到（就尽力偷懒还是最勤奋的那一批，因为人家都是老...

查看13道真题和解析牛客激励计划面试问题记录

点赞评论收藏

分享

05-29 10:52

字节跳动_推荐算法工程师

实习生招聘AI作弊

组里一直缺实习生，前两天好容易有个候选人，mt和ld都感觉没啥问题，交叉面被识破了—-通过眼镜反光当代狄仁杰属于是

xwqlikepsl：好似

点赞评论收藏

分享

评论

2

4

全站热榜

更多

华为开奖进度👉

热聊中

创作者周榜

更多

正在热议

更多

# 我的实习收获 #

15949次浏览 304人参与

# 穿越回高考你还会选现在的专业吗 #

12182次浏览 173人参与

# 实习吐槽大会 #

18325次浏览 86人参与

# 我的租房踩坑经历 #

8169次浏览 127人参与

# 晒一晒你的工位 #

81310次浏览 287人参与

# 打工人锐评公司红黑榜 #

144601次浏览 892人参与

# 非技术er求职现状 #

58274次浏览 428人参与

# 提前批过来人的忠告 #

102408次浏览 1114人参与

# 毕业旅行去哪玩儿 #

485次浏览 18人参与

# 携程求职进展汇总 #

523958次浏览 3855人参与

# 高学历就一定能找到好工作吗？ #

47417次浏览 585人参与

# 运营/市场营销人的秋招现状 #

16666次浏览 186人参与

# 你想对下半年说点什么 #

22432次浏览 209人参与

# 你投递的公司有几家约面了？ #

104094次浏览 746人参与

# 招聘要求与实际实习内容不符怎么办 #

100445次浏览 726人参与

# 工作压力大怎么缓解 #

78755次浏览 934人参与

# 运营人求职交流聚集地 #

133385次浏览 978人参与

# 你最满意的offer薪资是哪家公司？ #

25619次浏览 134人参与

# 选完offer后，你后悔学机械吗？ #

29014次浏览 162人参与

# 实习中的菜狗时刻 #

363774次浏览 3288人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务