字节大模型算法实习面经 没招了已经
给我面没招了,发点面经攒攒人品~
1.项目拷打
2.介绍一下奖励函数的坍缩现象和问题
3.离线强化学习和在线强化学习了解么?你的项目里是哪种?
4.代码:onehot100的2d接雨水
5. GRPO 公式?为什么公式里面 clip 了外面还要计算一次 mean 呢?
6.讲讲qwen2.5vl, llama
7.多目标优化奖励函数冲突,
8.介绍一下 QKV 的计算?
9.手撕MHA
1.项目拷打
2.介绍一下奖励函数的坍缩现象和问题
3.离线强化学习和在线强化学习了解么?你的项目里是哪种?
4.代码:onehot100的2d接雨水
5. GRPO 公式?为什么公式里面 clip 了外面还要计算一次 mean 呢?
6.讲讲qwen2.5vl, llama
7.多目标优化奖励函数冲突,
8.介绍一下 QKV 的计算?
9.手撕MHA
全部评论
相关推荐
点赞 评论 收藏
分享
点赞 评论 收藏
分享