滴滴LLM大模型实习一面凉经
自我介绍
提问项目:
1.gspo和grpo区别,损失函数
2.ppo和grpo区别
3.强化学习的理解(reward是否需要某一步突然特别好等等)
4.策略模型和参考模型如何设计
5.rag的架构,如何分块
八股:
1.transformer结构
2.介绍一下微调有哪些
3.为什么更多用lora这种泛式,而不是prefix tuning
手撕:lc 旋转图像
提问项目:
1.gspo和grpo区别,损失函数
2.ppo和grpo区别
3.强化学习的理解(reward是否需要某一步突然特别好等等)
4.策略模型和参考模型如何设计
5.rag的架构,如何分块
八股:
1.transformer结构
2.介绍一下微调有哪些
3.为什么更多用lora这种泛式,而不是prefix tuning
手撕:lc 旋转图像
全部评论
相关推荐
查看10道真题和解析