一面 感觉总体很简单,但不知道是不是面试疲惫了,好多八股都忘了1. MHA、MQA 这些核心思想是什么?2. MLA 又是什么?在哪里降维?为什么需要对剩下的部分做 rope?3. 视觉数据如何设计 memory?4. SFT 和 GRPO 数据有什么区别?(SFT 有思维链、GRPO 只有答案?这题我讲了半天,不知道是我睿智了还是面试官不懂,评论区有无懂哥)5. visual r1 是怎么做的,你如何设计你的 MLLM RL 方案。6. 有遇到过 sft loss 为 0 的情况吗?如何解决?7. loss 正常下降但在测试集表现差,原因是什么?8. GRPO loss 为什么会增?你的理解是什么?9. DAPO 创新点是什么?10. 场景题:如何对用户忠诚度评分?构建优质用户模型