百度大模型算法三面面经
三面主要以聊项目为主,问题相对比较少,无手撕
DPO相比于PPO的优势?
在不同的项目中,都使用了DPO,有哪些区别?
如何分析训练结果并改进训练数据的构造方式?
多模态的DPO的训练是如何做的,如果构造数据?
DPO相比于PPO的优势?
在不同的项目中,都使用了DPO,有哪些区别?
如何分析训练结果并改进训练数据的构造方式?
多模态的DPO的训练是如何做的,如果构造数据?
全部评论
相关推荐
点赞 评论 收藏
分享
相关推荐