百度文心一言大模型算法实习一面
给我面没招了,感觉自己好菜,发点面经攒攒人品
1、 PPO 与 GRPO 的区别,分别介绍他们的优势与缺点
2、 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛
3、 Deepseek -R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢
4、 DPO 如何解决回答过长的问题,除了正则
5、开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning
6、对于一个 base model 如何增强大模型的 reasoning 能力
7、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗
8、 DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了
1、 PPO 与 GRPO 的区别,分别介绍他们的优势与缺点
2、 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛
3、 Deepseek -R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢
4、 DPO 如何解决回答过长的问题,除了正则
5、开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning
6、对于一个 base model 如何增强大模型的 reasoning 能力
7、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗
8、 DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了
全部评论
相关推荐
等闲_:我的也可以和楼主的结合一下
查看10道真题和解析 点赞 评论 收藏
分享