26校招|美团大模型面经

一  面
1.自我介绍,问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ,那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中,如何防止模型在微调数据集以外的问题上泛化能力下降?如何防止模型收敛到单一类型的高奖励回答
9.代码:25.K个一组翻转链表
二  面
1.自我介绍和讲论文讲实习,多模态大模型是否有接触?落地案例?
2.介绍一下 Qwen布的这几版模型,都做了哪些贡献,包括数据、模型和训练
3.DeepSeek 有了解吗, DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化
4.了解大模型的解码策略吗,简要说一说吧
5.现有一个能力较弱的多模态模型和一个能力较强的文本模型(如 DeepSeek-R1),如何结合两者的能力来回答与多模态相关的问题?
6.代码:199.二叉树的右视图
7.反问环节
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

一面(1.5h)1.自我介绍,过实习,讲论文,根据表述实时跟进询问交流2.讲一下大模型训练和推理的流程, SFT 和 RLHF 的作用分别是什么3.为什么探索 MoE 架构, MoE 相比 Dense 有什么好处4.有没有全量微调过5.推导一下神经网络反向传播的过程6.在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式7.一道排列组合的概率题8.平常有用过 RLHF 吗,简单介绍一下9. 开放题:对目前大模型的发展有什么看法10.代码:多头自注意力二面(1h)1.自我介绍,过实习和论文2.知道哪些强化学习算法,除了 PPO和 DPO 这些呢3. 知道 LoRA 的原理吗, A 和 B 两个矩阵怎么初始化,有了解过其他的初始化方法吗4.除了 DeepSpeed ,还用过其他的什么优化方法吗5.ZeRO -1, ZeRO -2,ZeRO -3三个模式的区别6.讲一下 RLHF 的流程,之前有用 RLHF 做过模型对齐吗7.当时你用 DeepSpeed ZeRO -3来微调Qwen2-72B,每一张卡占用的显存大概是多少,估算一下为什么是占这么多的显存8. 在微调 Qwen 的时候,数据是怎么构造的9.代码:无重复字符的最长子串📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
查看19道真题和解析
点赞 评论 收藏
分享
评论
点赞
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务