疯狂拷打:美团算法面经

1. GRPO是on policy还是off policy?为什么?
2. GRPO利用的数据是旧策略产生的,那为什么还叫on policy?
3. 重要性采样解决了什么问题? 公式是怎么样的?解释下每个参数
4. GSPO和DAPO分别解决了什么问题?怎么解决的?
5. 什么是强化学习的熵崩溃?怎么优化或者解决这个问题?
6. 熵崩溃和reward hacking什么关系?
7. Qwen3和ds r1区别?
8. 如何确定你项目的评估指标迭代是否符合当前需求?
9. MLA具体是怎么做的?可以加快推理速度吗?
10.  代码题是给三段代码,判断输出。
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务