大厂推荐算法面经10问
1.你知道 DPO 的损失函数公式吗,
2.GRPO , PPO 与 DPO 区别是什么
3.GRPO / PPO 是 on policy 还是 off policy 的, DPO 呢
4.DAPO 对 GRPO 的改进有哪些
5.Gspo 对 Grpo 的改进有哪些
6.比较一下 process reward 和 outcome reward
7.强化学习训练时遇到 reward 上升,但 validation 时效果下降,有哪些解决思路
8. VeRL 框架是同步的还是异步的,具体的训练流程是什么
9.了解 RL 的训推不一致问题吗?训推不一致的产生原因是什么
10.你认为未来 SFT 阶段和 RL 阶段,哪个更重要
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
2.GRPO , PPO 与 DPO 区别是什么
3.GRPO / PPO 是 on policy 还是 off policy 的, DPO 呢
4.DAPO 对 GRPO 的改进有哪些
5.Gspo 对 Grpo 的改进有哪些
6.比较一下 process reward 和 outcome reward
7.强化学习训练时遇到 reward 上升,但 validation 时效果下降,有哪些解决思路
8. VeRL 框架是同步的还是异步的,具体的训练流程是什么
9.了解 RL 的训推不一致问题吗?训推不一致的产生原因是什么
10.你认为未来 SFT 阶段和 RL 阶段,哪个更重要
📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享

