给我面没招了,感觉自己好菜,发点面经攒攒人品1、 PPO 与 GRPO 的区别,分别介绍他们的优势与缺点2、 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛3、 Deepseek -R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢4、 DPO 如何解决回答过长的问题,除了正则5、开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning6、对于一个 base model 如何增强大模型的 reasoning 能力7、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗8、 DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了