美团算法实习一面技术面 50min
1. GRPO是on policy还是off policy?为什么?
2. GRPO利用的数据是旧策略产生的,那为什么还叫on policy?
3. 重要性采样解决了什么问题? 公式是怎么样的?解释下每个参数
4. GSPO和DAPO分别解决了什么问题?怎么解决的?
5. 什么是强化学习的熵崩溃?怎么优化或者解决这个问题?
6. 熵崩溃和reward hacking什么关系?
7. Qwen3和ds r1区别?
8. 如何确定你项目的评估指标迭代是否符合当前需求?
9. MLA具体是怎么做的?可以加快推理速度吗?
10. 代码题是给三段代码,判断输出。
2. GRPO利用的数据是旧策略产生的,那为什么还叫on policy?
3. 重要性采样解决了什么问题? 公式是怎么样的?解释下每个参数
4. GSPO和DAPO分别解决了什么问题?怎么解决的?
5. 什么是强化学习的熵崩溃?怎么优化或者解决这个问题?
6. 熵崩溃和reward hacking什么关系?
7. Qwen3和ds r1区别?
8. 如何确定你项目的评估指标迭代是否符合当前需求?
9. MLA具体是怎么做的?可以加快推理速度吗?
10. 代码题是给三段代码,判断输出。
全部评论
相关推荐
查看16道真题和解析