美团大模型日常实习二面 1h

1.MHA(多头注意力)机制详细讲一下,Q/K/V 怎么算?
2.Qwen、ChatGLM、Llama 三者架构核心区别是什么?
3.ChatGLM 为什么用 GLM-style attention?优势在哪? 这个问题啥意思
4.DeepSeek 的模型结构有什么特点?MoE 还是 dense?
5.RoPE(旋转位置编码)原理是什么?为什么比绝对位置好?
6.PPO 算法公式写一下?能不能不用 Value Model?
7.GRPO 是什么?和 PPO 有什么区别?知道 GAE 吗?
8.交叉熵 loss 公式怎么推导?具体怎么计算的?
9.代码生成你怎么看?像 Trae 这类工具,项目代码怎么喂给 LLM 的?
10.手撕题:最长回文子串(LeetCode 5)
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务