美团大模型算法实习面经-攒人品中

攒攒人品!有面试过同岗的朋友欢迎评论区交流
实习拷打
1. 大模型微调中,如何解决蒸馏数据里“伪优质数据”(表面合规但实际存在误导性)的筛选问题?具体落地策略是什么?
2. Prompt迭代时,如何平衡“指令遵循率”和“业务适配性”?当两者冲突(比如按指令输出但不符合业务规范),你是怎么优化的?
3. 用LoRA做大模型微调时,遇到过过拟合/欠拟合问题吗?具体是怎么排查、解决的?对比全参微调,LoRA在解决这类问题时的优势和局限分别是什么?
4. 设计GRPO奖励函数时,当遇到跨场景需求,奖励权重如何动态调整?合规性的自动化评估,怎么适配不同场景的规范要求?
5. 如何通过业务反馈闭环(用户反馈),反哺模型微调、Prompt优化和数据筛选?举1个你实际处理过的Bad Case,说明完整优化链路。
八股
1. Self-Attention中Q/K/V各自作用?为什么要分开?
2. 把K换成Q(QQV)可行吗?为什么?
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-26 16:16 广东

相关推荐

给我面没招了,感觉自己好菜、面试很难,还是要多多练习1.项目拷打2.你在去部署或者训练预训练或者后训练的模型时,有没有用过一些比较底层的一些训练的调试的工具,比如说千卡的话很容易就会出NCCL timeout,如果出现 NCCL timeout,一般怎么定位和解决?3.像那种rl里面的那个MOE之类的那种的优化有去做过吗4.看您的训练经验比较丰富,而且您上线运行的推理内容之前也进行过一些什么样的优化吗?5.有没有做过 kernel级别的优化?比如用 CUTE DSL或者手写 CUDA去做 fusion这类算子融合优化,介绍一下6像底层,如果你们在做.kernel fusion,倾向于用什么方式来做7.有没有哪次你做了 fusion 结果性能反而下降的?原因是什么8.平时写 CUDA的时候,有没有关注到底层实现细节?比如你刚提到 FA2,那再往下一层,像 Hopper架构里那个 warp specialization是什么,它底层大概是怎么实现的9.试过用 Agent去生成cuda内核么,怎么去做的10.如果我把 warp specialization 去掉,只保留 tile 和 shared memory 优化,大概会损失在哪?11.怎么么判断一个 MoE 模型是真的学到了分工,而不是只是把 dense模型拆开了12.在 RL + MoE 里,有没有遇到过 reward把 routing学坏的情况?就是模型为了拿 reward,全都走某几个 expert,这种情况你当时是怎么处理的
查看11道真题和解析
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务