面试基本在两周之内结束掉了,还因为时间冲突推掉了小米和滴滴。因为秋招春招时看过许多面经,也很感谢那些记录。在这里也分享一下自己面经,许愿oc!!!蔚来多模态(无后续):2.28 投递3.5 测评3.6 一面:自我介绍项目介绍围绕项目,基本问项目细节、实现细节这样,以及“放在现在,你觉得你的项目还有什么优化空间”八股: llama的架构、diffusion的介绍,采样过程的输入、样本标签不均衡、attention的变种、python的切片无手撕金山 NLP2.28 投递3.2 笔试3.14 一面3.19 二面3.25 hr面3.27 电话oc一面 30min:1、bert、gpt等大模型的架构是什么2、怎么实现的只看到前面的token3、decoder-only的mask怎么实现4、bert还需要mask吗5、llama的结构 6、前置层归一化的好处是什么?7、还有什么区别 层归一化函数用的RMSnorm,还有旋转位置编码8、旋转位置编码的好处是什么9、项目介绍10、数据怎么处理的,训练数据输入和输出之间用什么分割符11、lora和adapter的区别和相同点12、lora和adapter的在推理时有什么区别13、用过或了解什么分布式训练14、llama2和llama的区别15、无手撕二面 1h10min:无八股,基本在聊项目及细节,因为项目涉及VAE在文本上的应用,面试官还让画图展示讲解。算法:找到数组中最大的k个数,说思路就行(说了最小堆),以及时间复杂度三面 15min:简单聊天,当场oc说申请offer,过了两天电话确认base地oppo NLP:2.26 投递3.9 笔试3.18 一面3.20 二面3.21 hr面3.29 offer一面 30min1、自我介绍+项目介绍2、bert和gpt的区别3、bert怎么实现看到上下文的4、介绍一下qlora5、介绍promt tuing和其他高效微调方法6、算法:最长回文子串,说思路(太久没刷题了忘记动态规划、面试官说不一定要用最优解,我就说了个暴力解的思路)可能有其他八股的问题但是想不起来了二面 30min面试官应该是主管,主要是聊天,没怎么问技术,也没有手撕1、自我介绍+项目介绍2、了解国内的大模型吗(说了chatglm)3、chatglm的优化点在哪4、长度外推现在一般怎么做5、以往的项目中有没有自己主导的内容6、有没有遇到过分歧什么的,怎么解决的7、自己努力去实现目标的事hr 面 25min1、自我介绍+一些家常2、拿到offer了吗3、求职最看重的三个点4、求职最反感的是什么5、如何判断企业价值观与个人价值观匹配呢6、为什么没有企业实习经历7、有没有因为预期会损害到他人利益,而十分纠结的经历8、家人对找工作有无支持9、最感动的一件事(忘记是不是这个问题了,印象中说的是相关的)10、反问:培训制度、上班时间(9-19 午休1.5h)三星西安研究所 多模态3.11 投递3.15 一面+测评3.19 入社申请表一面(3个面试官) 30min:1、英文自我介绍+项目介绍2、了解哪些数据结构3、VAE和diffusion的区别4、哪个效果好,为什么diffusion效果好5、VAE生成的图片为什么会模糊6、大模型的架构等(具体忘了,反正是一两个八股)7、RAG了解嘛8、Prompt和Instruction有区别吗9、了解什么推理部署的方法以及模型量化的方法10、现在很多工作都是在做数据工程,比如让大模型去生成数据和标签,你是怎么看的?11、无手撕摩尔线程 NLP3.5 投递3.19 一面3.22 二面3.26 三面4.10 HR面一面 1h1、自我介绍+项目介绍2、围绕项目进行提问,如何用大模型对以往的项目进行优化等3、大模型八股拷打。内容与金山一面差不多,但会问得更细一些,比如一个7b的大模型,在微调过程中adam优化器的内存是模型参数的多少倍?(混合精度训练)4、分布式训练deepspeed zero的细节5、RLHF的流程6、算法题又是topk,但面试官要求用O(n)的时间复杂度,给了提示说用快速排序的思想7、反问:问面试建议,面试官让好好准备二面二面 1h 20min1、自我介绍+拉家常2、做题(讲思路):像是“盛最多水的容器”与“接雨水”的结合(我哪有吃过这种苦….),我整理了之后描述如下:    给定一个长度为 n 的数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]),每条垂线间隔1米。返回这些垂线构成的容器可以存储的最大水量。做题大概40分钟,跟面试官讨论了3种可行的做法(想出一种前向遍历和后向遍历的解法,但面试官问有无遍历一次的解法,可恶!但面试官提示了双指针)3、因为算法题做得太慢了,面试官问本科(非科班)有无学过数据结构和算法之类的4、项目介绍,还能如何优化5、qlora与lora的区别6、了解哪些并行方法7、zero 中有哪些参数会占用gpu显存8、那activation为什么不做分页(上一问题提到了模型中间输出不需要保存,在反向传播时做重计算)9、介绍一下llama和llama210、llama2中的GQA为何能加快训练速度11、人生中最值得骄傲的事情12、论文的分工合作情况13、面试官花了有5分钟以上介绍摩尔线程现在的业务和发展情况14、反问:说后续还有技术面才到hr面(饶了我吧!)三面 1h 20min1、自我介绍+项目介绍2、长度外推,要怎么解决3、文本数据增强有什么做法4、llama架构5、llama的参数量(考察是否真的了解每一层的参数)6、qlora和lora7、分布式训练8、张量并行和deepspeed zero的区别9、手撕:有一个random7函数可以从[1,7]以均匀分布的概率采样一个整数,基于此实现从[1,10]之间以均匀分布的概率采样一个整数10、python怎么处理高并发(不会)11、进程和线程的区别12、线程相比进程的优点(不会)HR面 10min:HRBP简单聊天,下周给结果携程 NLP3.8 投递3.13 笔试3.20 一面3.25 二面3.29 HR面+英语测评一面 30min1、自我介绍+项目2、bert的attention以及多头注意力机制的作用3、有哪些高效微调方法4、长度外推的做法5、分布式训练的三种并行方法6、了解推理部署方法吗7、有接触过后端开发的东西吗8、手上有offer吗9、工作地点偏好10、什么时候毕业11、之前为什么签管理岗的三方12、无手撕13、反问业务二面 30min1、自我介绍+项目2、无八股,无手撕,全程聊项目细节3、反问没有手撕嘛....HR面 30min1、自我介绍2、每个项目都问了,聚焦遇到的困难,怎么解决的,以及怎么做优化3、常规的一些hr面问题4、反问:一周内会有反馈虾皮 机器学习3.4 投递3.6 笔试3.22 一面3.27 二面4.9 HR面4.15 OC一面 1h1、自我介绍+拉家常2、手撕kmeans聚类(因为项目里提到了)3、给出sigmoid函数,以及一阶导数(求出来了自己觉得好像不对,被面试官说不自信)4、qlora和lora5、还有哪些微调方法6、prompt工程和prompt tuning7、了解强化学习吗8、又来一个代码题,给定QKV矩阵,给出多头注意力机制的计算(用tensorflow但我用的pytorch说也可以)9、attention计算为何要除以dk的平方根10、一定要除以这个数吗,可以是别的数吗11、反问业务和不足二面 1h1、自我介绍+随便聊聊2、项目介绍及细节提问3、数据标签不平衡怎么处理4、模型训练过程中发生loss震荡怎么办5、word2vec的两种实现,哪个更好6、word2vec负采样怎么实现的7、word2vec的softmax损失和负采样用的损失,本质上是否一样8、kmeans算法怎么做并行(面试官的引导非常好,让你一步步思考并说出答案)9、手撕:股票交易110、闲聊,面试官说有问题可以加微信找他沟通HR面 10min:HRBP简单聊天,offer情况,岗位和地点是否接受,下周给结果万科万物云 算法工程师3.14 boss上投递3.16 测评3.22 一面一面 25min1、自我介绍+项目2、项目遇到的难点和解决办法3、仍然是常见的大模型微调八股4、以往项目的分工合作情况5、拉家常6、反问业务:物业模型之类的还有元象科技和联通数科等企业,比较常规,就不记录了。
点赞 19
评论 7
全部评论

相关推荐

点赞 收藏 评论
分享
牛客网
牛客企业服务