滴滴多模态大模型校招一面

1.介绍简历和项目
2.针对之前的实习具体问了一下,问了一下VLM的经历,训练的框架?为什么不复用已有的模型等问题
3.实习中有做过一个多轮对话的项目,问了一下多轮对话的训练方式?DPO的数据来源与效果?
4.问了一些agent的方面,是否有效?和现有框架对比的优势在哪?
5.PPO的算法原理?PPO的广义优势估计怎么做?GRPO与PPO的不同之处?
6.MHA和FFN的参数量和计算量
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务