腾讯LLM大模型算法二面-实习面经

1.八股:GRPO 和 PPO 在 RLHF 中的核心区别是什么?为什么选择 GRPO 而不是 PPO?
2.八股:KL 散度在 RLHF 中的作用是什么?它的公式如何直观理解?
3.八股:vLLM 的核心优势是什么?它是如何通过 PagedAttention 提升显存利用率的?
4.八股:Qwen3 和 DeepSeek-R1 在架构上有哪些关键差异?(如 MLA、MoE、GQA 等)
5.项目:微调数据集的结构是怎样的?有多少条?数据清洗和有效性验证是怎么做的?
6.项目:奖励函数是如何设计的?是否考虑了回答的正确性(如推荐商品是否真符合用户需求)而不仅是长度或流畅度?
7.项目:怎么避免模型靠堆字数刷奖励?
8.项目: KV Cache 在长上下文推理中可能被污染,你们有做缓存隔离或清理机制吗?
9.项目:本地部署时,如何平衡 vLLM 的上下文长度和显存占用?是否做过量化或动态批处理?
10.手撕:乘积最大子数组(LeetCode 152)
全部评论
佬的项目是啥
点赞 回复 分享
发布于 03-10 10:50 北京

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
评论
2
3
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务