26校招|美团大模型面经
一 面
1.自我介绍,问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ,那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中,如何防止模型在微调数据集以外的问题上泛化能力下降?如何防止模型收敛到单一类型的高奖励回答
9.代码:25.K个一组翻转链表
二 面
1.自我介绍和讲论文讲实习,多模态大模型是否有接触?落地案例?
2.介绍一下 Qwen布的这几版模型,都做了哪些贡献,包括数据、模型和训练
3.DeepSeek 有了解吗, DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化
4.了解大模型的解码策略吗,简要说一说吧
5.现有一个能力较弱的多模态模型和一个能力较强的文本模型(如 DeepSeek-R1),如何结合两者的能力来回答与多模态相关的问题?
6.代码:199.二叉树的右视图
7.反问环节
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
1.自我介绍,问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型,什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ,那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中,如何防止模型在微调数据集以外的问题上泛化能力下降?如何防止模型收敛到单一类型的高奖励回答
9.代码:25.K个一组翻转链表
二 面
1.自我介绍和讲论文讲实习,多模态大模型是否有接触?落地案例?
2.介绍一下 Qwen布的这几版模型,都做了哪些贡献,包括数据、模型和训练
3.DeepSeek 有了解吗, DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化
4.了解大模型的解码策略吗,简要说一说吧
5.现有一个能力较弱的多模态模型和一个能力较强的文本模型(如 DeepSeek-R1),如何结合两者的能力来回答与多模态相关的问题?
6.代码:199.二叉树的右视图
7.反问环节
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐