美团26校招大模型算法一面
一面
1.介绍项目实习经历。
2.引入大模型的原因,大模型解决了什么问题,3.大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题
4.讲一下PPO和GRPO的原理和区别
5.如何理解强化学习中熵的概念,如何保证训练过程中熵保持在较高的水平,
6.强化学习中调参的经验
7. 强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。
8.多模态大模型的训练过程有什么不同?
9.多模态大模型的vision encoder一般使用vit的第几层输出?
10.mlp和Q-former两个模态融合模块的优劣?
11.代码题:手撕二叉树层序遍历
1.介绍项目实习经历。
2.引入大模型的原因,大模型解决了什么问题,3.大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题
4.讲一下PPO和GRPO的原理和区别
5.如何理解强化学习中熵的概念,如何保证训练过程中熵保持在较高的水平,
6.强化学习中调参的经验
7. 强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。
8.多模态大模型的训练过程有什么不同?
9.多模态大模型的vision encoder一般使用vit的第几层输出?
10.mlp和Q-former两个模态融合模块的优劣?
11.代码题:手撕二叉树层序遍历
全部评论
相关推荐
点赞 评论 收藏
分享
查看6道真题和解析 点赞 评论 收藏
分享
