网易 伏羲 大模型算法实习 一面面经

全程36分钟

1.自我介绍

2.拷打第一个项目,我的是一个论文项目,直接共享屏幕开讲,讲完面试官提了几个问题,主要是情绪流建模的必要性、为什么模型不和chatgpt比等

3.拷打第二个项目,我的是一个RAG的项目,我先详细讲了一下,然后开始问问题,第一个问了数据集构建的细节,第二个问了假如说想提高模型问答的效果,需要从那几个方面提升?

4.场景题,第一个问了对话场景中假如说用户问了一个问题,如何更好的识别用户的意图?第二个问了假如说想构建一个个性可以随意切换的问答系统,该如何设计系统?鼠鼠分别答了自己的理解,面试官又追问了几次

5.反问,问了部门做什么业务的,说是跟雷火那边合作,做智能NPC的

没有算法题和八股,场景题偏多,更看重自由发挥;总体来说面试官人挺好,但是感觉看着不是很缺人的样子,鼠鼠的一面怕是凶多吉少😭这段时间有点摆,没怎么面,略感生疏了

—————————————————-

晚上约了二面

#算法#  #面试时最害怕被问到的问题#  #面试中的破防瞬间#  #简历被挂麻了,求建议#  #软件开发2024笔面经#
全部评论
这个部门我面过,当时挺想去的😭
2 回复 分享
发布于 2024-04-24 09:32 浙江
佬,情况一摸一样,我早上一面,晚上二面,然后我说五月底入职,面试官直接不想面了,20分钟结束,笑嘻了。
1 回复 分享
发布于 2024-04-23 23:49 福建
请问佬什么时候投的呀 我一个多星期前投了一点没有消息
点赞 回复 分享
发布于 2024-04-28 22:49 江苏
佬,论文和项目都是llm的么
点赞 回复 分享
发布于 2024-04-23 20:32 广东

相关推荐

1️⃣一面时间:9.12  时长:1hcode:统计岛屿数量、最大岛屿面积,DFS方法解了然后介绍实习项目,面试官非常耐心地听,没有打断八股1.bert和gpt的区别?(从模型架构、训练方式、使用场景方面回答的)2.训练/微调一个LLM的流程?3.实习时用的 megatron 框架吗,对分布式训练框架了解多少?(回答了deepspeed和megatron区别,以及几种并行方式,以及deepspeed的三种zero)4.了解强化学习吗,跟SFT有什么区别?5.反问:业务,对岗位的期望💣评价:有点紧张,算法题有一个小失误没注意到2️⃣二面时间:9.14  时长:1h八股1.写一下 attention 公式(代码实现了下)2.训练时为什么要mask,推理时也需要吗?两处有什么区别?推理时的sequence length和训练时一样吗3.transformer和传统seq2seq模型有什么区别?4.计算attention时为什么要除以d_k,这个d_k的含义是?5.attention计算时还有哪些scale处理?6.attention中softmax函数作用、公式、为什么有减去最大值的处理?换个函数还能这样处理吗?7.解释数值上溢、下溢问题8.讲一下prompt书写的经验,如何判断prompt是否达标,如何改进prompt9.讲一下SFT,会对哪部分计算loss?为什么?10.讲一下deepspeed11.训练用一个7b模型要占用多少显存?不同zero阶段能够节省多少显存?12.训练模型时用了几张卡,有遇到什么异常中断问题吗?反问: 在乎候选人什么能力?对面试表现有哪些改进意见?💣评价: 基础不够扎实,网上有的知识都能回答上来,在同龄人里算比较优秀,欠缺一些多机多卡实践经验。  
查看17道真题和解析
点赞 评论 收藏
分享
评论
4
22
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务