美团秋招大模型应用一面

1、介绍自己的中厂实习。
2、追问实习业务的上下游,以及交付标准、测试集怎么构成:
3、追问为什么这个业务要引入大模型,大模型解决了什么问题。
4、大模型sft解决不了业务问题吗?为什么还要引入强化学习。强化学习主要解决业务中的什么问题。
5、讲一下PPO和GRPO的原理和区别
6、如何理解强化学习中熵的概念,如何保证训练过程中熵保持在较高的水平。
7、强化学习中调参的经验
8、强化学习中on policy和off policy有什么区别?grpo是on policy的吗?如何实习真正的on policy强化学习。
9、多模态大模型的训练过程有什么不同?10、多模态大模型的vision encoder一般使用vit的第几层输出?
11、mlp和Q-former两个模态融合模块的优劣?
12、手撕二叉树层序遍历
全部评论

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务