问的贼细:京东大模型算法面试

✅一面
1.直接开始八股
2.Transformer 中为什么用LN不用BN
3.图像中 BN 是怎么用的
4.在 NLP 中如果句子长度不一致,用 BN 会有什么后果
5.给定三维矩阵bsz * seq_len * dim,BN和LN分别作用在哪个维度
6.已知bsz seq_len dim head,参数量是多少,和哪几个参数有关
7.带有多个注意力头的注意力机制计算过程
8.说出pytorch中维度变换的函数
9.显存OOM,参数,ZERO,vllm,梯度累积,优化器,混合精度
10.讲一下实习经历
11.长度外推技术
12.觉得自己做得最好的点是什么
13.使用华为的框架和显卡进行SFT有没有遇到什么问题
14.LongLoRA和LoRA的区别
15.算法题:返回第K大的数,要求比快排更快
✅二面
1.自我介绍
2.询问实习时间
3.快手推荐实习主要做的什么
4.实习期间做了哪些优化
5.LLM 的长度扩展策略有哪些
6.介绍 YaRN
7.用户是怎么用你们的工具的
8.幻觉怎么判断出来,如何解决
9.是否有调用外部搜索引擎
10.有没有用到Agent和RAG
11.910B适配过程中遇到的问题
12.深挖NIPS论文
13.下游任务介绍,效果为什么会有提升
14.给了一个现实生活中的例子,你的这篇论文怎么套上去
15.实习期间最大的挑战
16.技术上最有难度的事情是什么
17.转正和目前的offer情况
✅三面
1.自我介绍
2.对京东的感受
3.有没有觉得不好的地方
4.HR 介绍了京东的价值观
5.科研或者实习过程中有没有做过很创新的东西
6.这个过程中有没有遇到什么很困难的事情
7.交流技术的渠道一般都有哪些
8.觉得之前实习工作强度如何
9.目前的 offer 情况
✴️算法求职辅导,欢迎后台联系
全部评论

相关推荐

1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
评论
2
4
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务