美团大模型应用二面凉经

攒个人品,秋招不指望了,希望春招能有机会上岸吧。
------------------------------------------------------
没有自我介绍环节,一上来直接拷打实习,边拷打边问八股,基本上是我说一个做的东西,然后面试官就要开始问对应的八股了,记录一下问的八股:
1. Qwen 与传统的Transformer模型相比,有什么结构上的改进?
2. RMSNorm相较于LayerNorm有什么优势?公式是什么?
3. SwiGLU的公式是什么?
4. GRPO的公式是什么,这样做为什么更好?
5. KL散度的公式是什么,为什么要用KL散度?
6. LLM的损失函数是什么?给你一个10w的词表,计算出事的损失值
7. GRPO为什么要做clip,直接用SFT后的模型还会不稳定吗?优势度可以怎样改进?
8. 为什么你要用GRPO?GPRO结果比之前好多少?显存开销多大?训练一个Step需要多久?奖励函数如何设置的,为什么?有没有想过为什么一开始Reward出现大幅度震荡?GRPO是否一定有效,还有什么解决方法?
9. Post-Training 的工作机制,为什么要做三阶段训练?什么情况下应该用GRPO?为什么DeepSeek用了GRPO?如何从V3到R1?
10. 微调是如何进行微调的?为什么LoRA能够work?除了LoRA外,还了解哪些微调方法?
11. 后训练用的哪个框架?你用过什么框架?如何使用deepspeed进行分布式训练?脚本是你自己写的吗?
12. 知道什么Linux命令?
13. 用过C++,Java吗?平时用什么多?
14. 如何去评价你工作的产出和质量(基本上每个面试官都会问)
15. FLUX的工作原理,LoRA在这个地方起到了什么作用?
16. 你认为实习过程中哪些是从零到一的工作?(全部!鼠鼠之前学地理的)遇到一个不熟悉的领域,你会如何进行学习?
-------------------------------------------------------
大概是这些,可能不是很全

手撕:
删除链表中的节点;快慢指针秒了

反问:
面试官先介绍了下部门业务,随后反问:
1. 为啥初试后又是初试?(可以自己点的,实际上就是二面)
2. 后续几轮面试呢?(三轮,还有大老板面)
3. 工作强度 (8-9.30左右)
4. 这个岗位需要什么样的人? (努力学习新知识,耐心)

总而言之美团的面试体验真没的说,面试官会笑这一点就值得夸了,全程没啥压力,但是估计凉了,有些没答好#牛客AI配图神器#
全部评论
学长,我中南本软件所硕,都是计算机专业但都不是人工智能方向的,现在也想转大模型应用,能请教一下学习路线吗?这个学历自学往过去转可以吗?
点赞 回复 分享
发布于 2025-09-15 23:10 北京
哥 我本硕9 都是计算机 刚研一 现在应该卷论文还是卷实习呢😭
点赞 回复 分享
发布于 2025-09-15 20:30 四川
接好运
点赞 回复 分享
发布于 2025-09-15 19:46 浙江
应用也问这么多的算法八股吗
点赞 回复 分享
发布于 2025-11-09 11:32 北京
博主,这个在哪看被挂了
点赞 回复 分享
发布于 2025-09-25 18:25 河南
是哪个部门呀,问这么多llm八股
点赞 回复 分享
发布于 2025-09-11 13:42 广东
全是八股啊,这还有时间问项目吗
点赞 回复 分享
发布于 2025-09-09 17:16 江苏
哥 我双非本9硕 本科是计算机 硕士非科班 这种有希望进面吗
点赞 回复 分享
发布于 2025-09-08 11:47 河北
面试官笑了说明感觉还不错,希望还是有的兄弟,包邮的
点赞 回复 分享
发布于 2025-09-04 20:04 北京
问的好多呀,
点赞 回复 分享
发布于 2025-09-04 20:02 北京
大佬什么bg啊
点赞 回复 分享
发布于 2025-09-03 23:41 黑龙江

相关推荐

发点面经攒攒人品1、你在线上或离线训练时,过拟合怎么处理?直接说你最有效的三个方法和拿到的收益。2、把 BN 讲透:原理是什么;训练期和推理期用的统计量有何不同;跟 LN、GN 比,分别什么时候用、怎么取舍。3、分类和回归你最常用哪些损失?你更偏好哪几个,为什么(从鲁棒性、梯度、数值稳定性上谈)。4、L1 和 L2 正则你怎么选?它们各自的效果与风险是什么,工程里你是怎么权衡的。5、二元和多分类的交叉熵你怎么写?在工程里你怎么做数值稳定实现。6、AUC 到底在统计上代表什么?你怎么计算它,在线上业务里你如何解释“这次 AUC 提升”的含义。7、你做 CTR/CVR/CTCVR 联合建模时,ESMM/ESMM2 是怎么推导与工程落地的?线上到底带来了什么收益。8、Transformer 里因果注意力的 Q/K/V 各从哪来?Mask 具体怎么实现。9、Scaled Dot‑Product Attention 为啥要除以 √dk?如果不除会出什么数值或训练问题。10、把 Transformer / Decoder‑only 的整体结构过一遍,各个组件分别在干什么,有哪些常见变体。11、位置编码这条线你怎么选:绝对 PE、相对 PE、RoPE 各自的思路、优势和局限,结合你的项目谈取舍。12、长上下文怎么搞?Rope scaling、Position Interpolation、KV Cache 管理、检索增强、窗口注意力,你的实战方案是什么。13、KV Cache 在训练和推理中的差异是什么?它的加速价值有多大,吞吐与延迟你是如何权衡的,vLLM/paged‑attention 需要注意什么。14、PEFT 方案里(LoRA/QLoRA/Prefix/Prompt‑Tuning/Adapter)你怎么选?说说稳定训练的经验。15、SFT 和对齐(RLHF/DPO/IPO/PPO)原理差在哪?在不同数据与资源条件下,你怎么选路线。16、RAG 系统你怎么设计?切分、索引、召回/重排、压缩/融合、兜底策略怎么串。17、提示词工程你是怎么搞的?System/角色/约束/分步指令怎么写,如何防越狱
查看17道真题和解析
点赞 评论 收藏
分享
评论
5
57
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务