2025-12-09 16:10 昆明理工大学算法工程师

关注

美团校招大模型算法一面

1.项目介绍，问实习和论文
2.目前大模型模型结构都有哪些
3.什么情况用Bert模型，什么情况用LLaMA、ChatGLM类大模型?
4.prefix LM 和 causal LM、encoder-decoder 区别及各自有什么优缺点
5.刚刚提到 MLA ，那 MLA 是怎么对 KV Cache 做优化的
6.说一说大模型后训练的流程
7.Qwen是怎么做长度外推的
8.在 PPO 中，如何防止模型在微调数据集以外的问题上泛化能力下降？如何防止模型收敛到单一类型的高奖励回答
9.代码：25.K个一组翻转链表

全部评论

推荐最新楼层

03-31 00:39

广西大学算法工程师

微信大模型算法开发一面

1. 介绍下你实习学了什么 做过什么项目,为什么离职的2. MoE 为什么能在参数量很大的情况下还能把训练和推理成本压住，真正难点在哪MoE 的关键不是“参数变多了”，而是“每个 token 只激活一部分参数”。也就是说总参数量可以做得很大，但单次前向只走少数几个 expert，所以理论上计算量不会随着总参数线性增长。这个思路在大模型里很有吸引力，因为可以同时兼顾容量和成本。但真正难的地方是路由和负载均衡。路由器如果只偏爱少数 expert，训练会很不稳定，热门 expert 被打爆，冷门 expert 学不到东西。另一个难点是通信开销，尤其多机训练时，token dispatch 和 gat...

AI-Agent面试实战...

点赞评论收藏

分享

03-24 10:25

门头沟学院人工智能

百度文策大模型二面面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你的知识库数据是如何清洗和构造的？如果数据质量参差不齐会对 RAG 系统产生哪些影响？3.文档切分策略是如何设计的？chunk size 和 overlap 会如何影响召回质量和生成效果？4.如果用户的问题在知识库中确实存在，但系统经常没有召回正确文档，你会如何排查？5.如果检索到的文档是正确的，但模型最终生成的答案仍然是错误的，你会如何定位问题？6.实际系统中，如果召回结果经常语义相似但事实不相关，你会如何优化检索模块？7.如果一个问题需要跨多个文档的信息才能回答，你的 RAG 系统如何处理这种情况？8.在 RAG 系统中如何判断问题出在检索模块还是生成模块？9.请详细说明 Transformer 从输入 token 到输出 logits 的完整计算流程。10.FFN 层为什么采用“先升维再降维”的结构，这种设计对模型表达能力有什么作用？11.MHA、MQA、GQA 在推理阶段的 KV Cache 占用和计算效率上有什么差异？12.为什么推理阶段 KV Cache 只缓存 K 和 V，而不缓存 Q？13.RoPE 的核心原理是什么，它在长上下文场景下会遇到什么问题？14.instruction tuning 中多轮对话数据训练时，loss mask 应该如何设计？15.如果 SFT 之后模型在特定任务上能力增强，但通用能力明显下降，你会如何解决？16.LoRA 的低秩分解为什么能够逼近全参数微调的效果？17.如果 LoRA 的 rank 设置不合理，在模型表现上会出现什么现象？18.DPO 训练后模型输出明显变长，在实际系统中你会如何处理？19.如果对齐之后模型变得过于保守，经常拒绝回答，你会如何调整训练策略？20.大模型出现复读机现象通常由哪些因素导致？

点赞评论收藏

分享

04-10 20:59

广西大学算法工程师

滴滴大模型算法开发一面

1. 自我介绍2. 多模态里的旋转位置编码是怎么落到二维视觉 token 上的二维视觉 token 不像纯文本那样天然是一维顺序，所以多模态里的 RoPE 通常不会直接照搬文本侧。常见做法是把二维位置拆成行和列两个轴，分别做旋转位置编码，再把两个方向的信息组合到同一个视觉 token 表示里。这样模型在注意力里不仅能感知“前后”，还能保留一部分“上下左右”的相对结构。真正难的不是公式本身，而是视觉 token 经过压缩、重采样、patch merge 之后，原始空间坐标已经不再一一对应。这个时候二维 RoPE 的设计就要和视觉编码器、projector 以及后续 token 压缩方式一起看，否...

AI-Agent面试实战...

点赞评论收藏

分享

03-30 04:40

门头沟学院算法工程师

京东日常实习-大模型应用算法凉经

被横向挂了，希望发出来对大家有帮助！项目拷打+实习拷打1. GRPO在线学习策略过程，listwise 数据如何训练reward模型。2.MOE模型相关原理和微调经验。3. 逆序对实现和讲解（计算逆序对时如何避免重复计算）

查看3道真题和解析

点赞评论收藏

分享

03-25 08:30

西安交通大学算法工程师

阿里大模型算法面经分享

给我面没招了，感觉自己好菜、面试很难，还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时，有没有用过一些比较底层的一些训练的调试的工具，比如说千卡的话很容易就会出NCCL timeout，如果出现 NCCL timeout，一般怎么定位和解决？3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富，而且您上线运行的推理内容之前也进行过一些什么样的优化吗？5.有没有做过 kernel级别的优化？比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化，介绍一下6像底层，如果你们在做.kernel fusion，倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的？原因是什么8.平时写 CUDA的时候，有没有关注到底层实现细节？比如你刚提到 FA2，那再往下一层，像 Hopper架构里那个 warp specialization是什么，它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么，怎么去做的10.如果我把 warp specialization 去掉，只保留 tile 和 shared memory 优化，大概会损失在哪？11.怎么么判断一个 MoE 模型是真的学到了分工，而不是只是把 dense模型拆开了12.在 RL + MoE 里，有没有遇到过 reward把 routing学坏的情况？就是模型为了拿 reward，全都走某几个 expert，这种情况你当时是怎么处理的

查看11道真题和解析

点赞评论收藏

分享

评论

点赞

4

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI时代还有必要刷leetcode吗？ #

33829次浏览 431人参与

# 大学生该如何认清当下的就业环境？ #

162193次浏览 886人参与

# 有哪些公司在面试时考察AICoding？ #

18916次浏览 347人参与

# 运营来爆料 #

98772次浏览 508人参与

# HR面都在聊什么？ #

13418次浏览 162人参与

# 美团开奖 #

407689次浏览 1805人参与

# 26届春招投递记录 #

3566次浏览 42人参与

# 百度工作体验 #

325327次浏览 2247人参与

# 想从事Agent应该学习哪些技术？ #

8270次浏览 279人参与

# 实习学到最有价值的工作习惯 #

69579次浏览 551人参与

# OPPO求职进展汇总 #

808916次浏览 5441人参与

# 校招生月薪1W算什么水平 #

143358次浏览 492人参与

# 你觉得什么岗位会被AI替代 #

57151次浏览 371人参与

# 从投递到OC，你用了多久 #

23414次浏览 238人参与

# 什么人最适合大厂？ #

12513次浏览 133人参与

# 父母问你工作找得怎么样，怎么回 #

22755次浏览 282人参与

# 哪些公司面试还在问八股？ #

13767次浏览 123人参与

373801次浏览 2921人参与

# 我与AI的日常 #

3252次浏览 16人参与

# 我的求职进度条 #

1111261次浏览 8034人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务