百度大模型算法面经

三面主要以聊项目为主,无手撕

DPO的原理,损失函数如何计算?
DPO相比于PPO的优势?
在不同的项目中,都使用了DPO,有哪些区别?
如何分析训练结果并改进训练数据的构造方式?
多模态的DPO的训练是如何做的,如果构造数据?
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务