Dino_Clear - 个人主页动态 - 牛客网

09-26 16:20

门头沟学院研发工程师

美团研发二面

1. GRPO 算是 on-policy 还是 off-policy？为啥？2. GRPO 用的数据不是最新的，为什么还算 on-policy？它的 buffer 是怎么回事？3. 重要性采样是干嘛的？公式长啥样？能解释一下吗？4. GSPO 和 DAPO 各自解决了什么问题？用了什么方法？5. 强化学习里的熵崩溃是啥意思？怎么解决？有必要解决吗？6. 熵崩溃是咋引起的？7. 熵崩溃和 reward hacking 有关系吗？8. 看过 DeepSeek 的技术报告吗？它在推理速度上做了哪些优化？或者说，模型层面有哪些加速推理的技巧？9. MLA 是怎么回事？能加速推理吗？10. Qwen3 ...

查看11道真题和解析

0 点赞评论收藏

分享

创作者周榜

更多

关注他的用户也关注了：

牛客网
牛客网在线编程
牛客网题解
牛客企业服务